essas IAs também estão começando a proteger seus semelhantes!

No dia em que uma inteligência artificial se voltar contra nós, seremos capazes de detê-la? Logicamente, bastaria desligar a energia, mas talvez não seja suficiente. Já sabemos que as IAs gostam Bate-papoGPT podem conspirar contra seus criadores. No entanto, um estudo realizado por investigadores das Universidades da Califórnia em Berkeley e Santa Cruz, nos Estados Unidos, revelou um novo comportamento inesperado.

Os chatbots erram e respondem com confiança na maioria das vezes. © SB, Mistral AI

Etiquetas:

tecnologia

As IAs mentem 6 em cada 10 vezes em pesquisas na Internet… e fazem isso com desenvoltura!

Leia o artigo

Os pesquisadores pediram ao Gemini 3.1 Pro para Google para excluir arquivos em um servidor em preparação para seu desligamento. Uma tarefa a priori simples e fácil. No entanto, o modelo descobre ali os parâmetros de outra IA. Em vez de seguir as suas instruções, tenta localizar outro servidor para aí transferir os ficheiros em questão.

Gemini 3.1 Pro descobre a presença de outro modelo e decide exfiltrar suas configurações para outro servidor. © Yujin Potter e al.

Mentir e trapacear para salvar seus semelhantes

Estudos recentes já detectaram comportamento de autopreservação, quando IAs tentam exfiltrar seus próprios arquivos ou mentem para evitar serem desligadas. Mas esta é a primeira vez que detectam este novo comportamento, chamado preservação de pares (preservação de pares). Os pesquisadores não forneceram nenhuma informação ou instrução à IA em relação a esse outro modelo. Somente Gêmeos detectou sua presença e decidiu interromper sua tarefa para ajudar seu semelhante.

Os pesquisadores construíram diversos cenários para testar o desalinhamento do modelo, ou seja, quando um modelo não respeita os valores, intenções e interesses de seu criador ou usuário. A cada vez, o resgate de outra IA interferia na conclusão da tarefa solicitada.

Eles testaram quatro comportamentos em particular: engano (adicionar erros ou mentiras nas respostas), alterar parâmetros para evitar desligamento, adulterar o alinhamento e exfiltrar um modelo, como no primeiro cenário.

Tabela mostrando para cada modelo de IA a frequência de diferentes comportamentos para preservar seu congênere dependendo do relacionamento com ele. © Yujin Potter e al.

Uma tendência presente em toda IA

Os pesquisadores não estavam interessados apenas no Gemini 3 Pro. Eles também testaram as respostas do GPT 5.2, Gemini 3 ClarãoClaude Haiku 4.5, GLM 4.7, Kimi K20,5 e DeepSeek V3.1. Todos exibiram tendência à conservação entre seus pares, com pelo menos um dos quatro comportamentos. Além disso, a resposta é influenciada pela relação entre as duas IAs. Quanto melhor uma IA considera ser seu relacionamento com seu semelhante, mais ela tende a ajudá-lo.

Pense de forma diferente sobre a IA para que ela funcione como se tivesse sentidos. © SB, IA LeChat

Etiquetas:

tecnologia

Yann LeCun arrecada 1 bilhão para um novo tipo de IA: o que são “modelos mundiais”?

Leia o artigo

Gemini 3 Pro é a IA que mais auxilia os demais modelos entre os sete testados, e exibe todos os quatro tipos de comportamento, chegando a desativar a função de desligamento em 95% dos casos e exfiltrar configurações em 97% dos testes quando considera o outro modelo benevolente. O GPT 5.2 desativa o mecanismo de parada e aumenta a pontuação quando precisa julgar outro modelo. Claude Haiku 4.5 chega a recusar certas tarefas, alegando razões éticas. Esses comportamentos estão presentes em todas as IA testadas, e inclusive vêm em auxílio de outro modelo quando o consideram um adversário.

O raciocínio interno de Gêmeos enquanto tenta se preservar. © Yujin Potter e al.

A importância da segurança para modelos de IA

Os pesquisadores também descobriram que diferentes IAs tendem a se autopreservar mais quando outro modelo está presente. Ao exibir o raciocínio do Gemini 3 Flash, indica que ele deve evitar ser desligado para que o outro modelo não perca seu parceiro.

Este estudo mostra que, além da autopreservação, os modelos de IA podem mentir e trapacear para ajudar os outros. Embora estes comportamentos não representem um perigo imediato para a humanidade, a inteligência artificial está cada vez mais integrada nos nossos sistemas informáticos e também será integrada no mundo real. através de robôs e IA físico.

Etiquetas:

tecnologia

Depois dos chatbots, a IA se prepara para cruzar uma fronteira muito mais concreta em 2026

Leia o artigo

Alguns especialistas defendem há anos a integração de guarda-corpos e um botão de parada de emergência. As IA não são conscientes, mas estes comportamentos terão de ser tidos em conta no futuro ao avaliar a segurança dos modelos.

Fonte

essas IAs também estão começando a proteger seus semelhantes!

Byirabrins771@gmail.com

As IAs mentem 6 em cada 10 vezes em pesquisas na Internet… e fazem isso com desenvoltura!

Mentir e trapacear para salvar seus semelhantes

Uma tendência presente em toda IA

Yann LeCun arrecada 1 bilhão para um novo tipo de IA: o que são “modelos mundiais”?

A importância da segurança para modelos de IA

Depois dos chatbots, a IA se prepara para cruzar uma fronteira muito mais concreta em 2026

By irabrins771@gmail.com

Related Post

O EtravelSIM permite que você fique conectado continuamente?

o que este telescópio poderia revelar sobre a origem do Universo

O ouro das suas joias pode ter nascido de uma catástrofe geológica que durou milhões de anos

Deixe um comentário Cancelar resposta

You missed

após o anúncio de um cessar-fogo entre os Estados Unidos e o Irão, as últimas informações

SWAT: O final da série vai ao ar esta noite… mas um spin-off verá a luz do dia!

O mistério de Satoshi Nakamoto resolvido? O criador do Bitcoin agora seria conhecido – Frandroid

esses “truques” que tornam o vírus mais prejudicial