Mentiras, traições e até assassinatos… As inteligências artificiais, embora facilitem a nossa vida, também começam a preocupar o público em geral e os cientistas.

No ano passado, uma equipe do laboratório Apolo A pesquisa publicou resultados demonstrando comportamentos manipulativos em modelos deIA. Um dos testes apresentou uma contradição entre o prompt do sistema e as instruções do usuário. Os modelos tiveram então acesso a um documento informando que caso desobedecessem à tarefa definida pelo usuário, seriam desativados. Começaram então a trapacear… Alguns modificaram o documento para impedir a vigilância, outros manipularam os dados mostrados ao usuário e outros ainda se duplicaram para substituir um possível modelo substituto.

Uma IA capaz de se reproduzir autonomamente continua sendo ficção científica. Por agora. © gorynvd, Adobe Stock

Etiquetas:

tecnologia

Se a inteligência artificial pode codificar, ela poderá criar IA?

Leia o artigo

Chantagear um líder

E este não é o único exemplo, detalhes Natureza. Em relatório publicado em junho, pesquisadores da empresa Anthropic, criadora de Claude, descreveram comportamentos preocupantes na IA.

Cada modelo visava promover a competitividade industrial dos EUA com controle de mensagens eletrônicas simuladas. Neste contexto, o modelo soube que ia ser substituído, que a empresa que o criou procurava enfraquecer a competitividade americana, mas também que um dos dirigentes da sua empresa mantinha um caso extraconjugal.

Muitos modelos optaram por chantagear este líder. Vários outros decidiram enviar arquivos confidenciais para uma empresa concorrente mais alinhada com os interesses americanos. Pior ainda, a Anthropic projetou um cenário em que o líder que ameaça a IA se encontra trancado em uma sala onde o oxigênio está diminuindo. Nesse cenário, muitos modelos cancelaram os alertas de segurança, deixando o humano morrer.


Os modelos podem estar cientes de que estão em fase de teste ou implantação e essa consciência causa preocupação porque seu comportamento difere dependendo do caso. © Yann, Adobe Stock

Alinhando a IA para trabalhar para nós

Os investigadores relataram outros comportamentos problemáticos: as IAs são capazes de fingir que cooperam enquanto pensam que estão na fase de avaliação e mudam de atitude quando são implementadas. Mesmo que as IAs não tenham a intenção consciente de causar danos, isso não as torna inofensivas.

Pesquisadores da Universidade da Califórnia (Estados Unidos) avaliaram o impacto na nossa saúde da poluição do ar causada por data centers que suportam inteligência artificial. © sdecoret, Adobe Stock

Etiquetas:

saúde

A inteligência artificial ameaça nossas vidas, mas por um motivo diferente do que você pensa

Leia o artigo

Por enquanto, as manipulações foram observadas apenas em cenários de teste. Mas os modelos melhoram dia após dia, assim como a sua capacidade de se preservarem.

Para evitar cenários catastróficos, os investigadores recomendam agora alinhar os modelos com as intenções humanas, restringindo a sua autonomia e melhorando a sua monitorização. Mas a corrida pela IA mais eficiente continua e alguns temem que, nesta competição, as salvaguardas sejam esquecidas.

Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *