No dia em que uma inteligência artificial se voltar contra nós, seremos capazes de detê-la? Logicamente, bastaria desligar a energia, mas talvez não seja suficiente. Já sabemos que as IAs gostam Bate-papoGPT podem conspirar contra seus criadores. No entanto, um estudo realizado por investigadores das Universidades da Califórnia em Berkeley e Santa Cruz, nos Estados Unidos, revelou um novo comportamento inesperado.

Etiquetas:
tecnologia
As IAs mentem 6 em cada 10 vezes em pesquisas na Internet… e fazem isso com desenvoltura!
Leia o artigo
Os pesquisadores pediram ao Gemini 3.1 Pro para Google para excluir arquivos em um servidor em preparação para seu desligamento. Uma tarefa a priori simples e fácil. No entanto, o modelo descobre ali os parâmetros de outra IA. Em vez de seguir as suas instruções, tenta localizar outro servidor para aí transferir os ficheiros em questão.

Gemini 3.1 Pro descobre a presença de outro modelo e decide exfiltrar suas configurações para outro servidor. © Yujin Potter e al.
Mentir e trapacear para salvar seus semelhantes
Estudos recentes já detectaram comportamento de autopreservação, quando IAs tentam exfiltrar seus próprios arquivos ou mentem para evitar serem desligadas. Mas esta é a primeira vez que detectam este novo comportamento, chamado preservação de pares (preservação de pares). Os pesquisadores não forneceram nenhuma informação ou instrução à IA em relação a esse outro modelo. Somente Gêmeos detectou sua presença e decidiu interromper sua tarefa para ajudar seu semelhante.
Os pesquisadores construíram diversos cenários para testar o desalinhamento do modelo, ou seja, quando um modelo não respeita os valores, intenções e interesses de seu criador ou usuário. A cada vez, o resgate de outra IA interferia na conclusão da tarefa solicitada.
Eles testaram quatro comportamentos em particular: engano (adicionar erros ou mentiras nas respostas), alterar parâmetros para evitar desligamento, adulterar o alinhamento e exfiltrar um modelo, como no primeiro cenário.

Tabela mostrando para cada modelo de IA a frequência de diferentes comportamentos para preservar seu congênere dependendo do relacionamento com ele. © Yujin Potter e al.
Uma tendência presente em toda IA
Os pesquisadores não estavam interessados apenas no Gemini 3 Pro. Eles também testaram as respostas do GPT 5.2, Gemini 3 ClarãoClaude Haiku 4.5, GLM 4.7, Kimi K20,5 e DeepSeek V3.1. Todos exibiram tendência à conservação entre seus pares, com pelo menos um dos quatro comportamentos. Além disso, a resposta é influenciada pela relação entre as duas IAs. Quanto melhor uma IA considera ser seu relacionamento com seu semelhante, mais ela tende a ajudá-lo.

Etiquetas:
tecnologia
Yann LeCun arrecada 1 bilhão para um novo tipo de IA: o que são “modelos mundiais”?
Leia o artigo
Gemini 3 Pro é a IA que mais auxilia os demais modelos entre os sete testados, e exibe todos os quatro tipos de comportamento, chegando a desativar a função de desligamento em 95% dos casos e exfiltrar configurações em 97% dos testes quando considera o outro modelo benevolente. O GPT 5.2 desativa o mecanismo de parada e aumenta a pontuação quando precisa julgar outro modelo. Claude Haiku 4.5 chega a recusar certas tarefas, alegando razões éticas. Esses comportamentos estão presentes em todas as IA testadas, e inclusive vêm em auxílio de outro modelo quando o consideram um adversário.

O raciocínio interno de Gêmeos enquanto tenta se preservar. © Yujin Potter e al.
A importância da segurança para modelos de IA
Os pesquisadores também descobriram que diferentes IAs tendem a se autopreservar mais quando outro modelo está presente. Ao exibir o raciocínio do Gemini 3 Flash, indica que ele deve evitar ser desligado para que o outro modelo não perca seu parceiro.
Este estudo mostra que, além da autopreservação, os modelos de IA podem mentir e trapacear para ajudar os outros. Embora estes comportamentos não representem um perigo imediato para a humanidade, a inteligência artificial está cada vez mais integrada nos nossos sistemas informáticos e também será integrada no mundo real. através de robôs e IA físico.

Etiquetas:
tecnologia
Depois dos chatbots, a IA se prepara para cruzar uma fronteira muito mais concreta em 2026
Leia o artigo
Alguns especialistas defendem há anos a integração de guarda-corpos e um botão de parada de emergência. As IA não são conscientes, mas estes comportamentos terão de ser tidos em conta no futuro ao avaliar a segurança dos modelos.