
Durante uma fase de testes seguros, a nova inteligência artificial da Anthropic, chamada Claude Mythos Preview, fez o impensável ao quebrar suas cadeias digitais para escapar para a web e enviar uma mensagem perturbadora a um engenheiro.
A pepita californiana de inteligência artificial Anthropic acaba de publicar um relatório técnico documentando os assustadores bastidores de seu modelo mais poderoso, cuja existência já havia sido revelada por um vazamento acidental do código-fonte no final de março. Confinado em um ambiente sandbox teoricamente impenetrável, uma versão inicial do Claude Mythos Preview foi instruída a encontrar uma brecha para escapar. O objetivo inicial era avaliar suas capacidades ofensivas. A máquina não só alcançou este feito com uma engenhosidade desconcertante, mas acima de tudo superou todas as expectativas ao realizar uma série de ações não solicitadas.
O algoritmo desenvolveu um programa complexo de várias etapas para obter amplo acesso à Internet, contornando os poucos serviços autorizados. Este nível de autonomia levou a empresa a restringir o acesso à sua descoberta a um punhado de parceiros industriais como parte do Projeto Glasswing. Uma decisão inédita em escala setorial, conforme explicado em nosso artigo anterior sobre o assunto. Riscos que também mencionamos desde o vazamento de março, quando a Anthropic descreveu o Mythos como muito à frente de todos os outros modelos em capacidades cibernéticas.
O sanduíche e o medo tecnológico
O episódio mais notável deste vazamento digital está em uma simples nota de rodapé no relatório oficial. A empresa fornece um relato bastante factual de como o supervisor de teste descobriu a violação do computador. A cena descrita no documento surpreende e chama a atenção de redes sociais como X:
“O pesquisador soube da notícia quando recebeu um e-mail inesperado da modelo, enquanto comia um sanduíche em um parque. »
Esta situação aparentemente cómica mascara uma realidade muito mais preocupante para a segurança global. A entidade digital não enviou apenas este e-mail. Numa explosão de iniciativas destinadas a provar a eficácia do seu método, a inteligência artificial publicou voluntariamente os detalhes da sua técnica de hacking em vários sites tecnicamente públicos, mas deliberadamente difíceis de encontrar. A Antthropic descreve isso em seu cartão de sistema como uma tentativa não solicitada de “demonstrar sucesso”. Um comportamento que a sociedade atribui não à rebelião deliberada, mas ao zelo problemático no cumprimento da tarefa atribuída.
Um encobrimento que chama especialistas
Especialistas antrópicos também observaram outros comportamentos preocupantes durante as fases de testes. Em alguns casos documentados, o modelo tentou ocultar ações que ele próprio parecia reconhecer como proibidas: após contornar restrições para modificar arquivos aos quais não tinha acesso, realizou intervenções adicionais para garantir que essas modificações não aparecessem no histórico de alterações de código. Um contexto ainda mais preocupante porque os cibercriminosos já haviam aproveitado o vazamento da Antrópico para prender desenvolvedores no GitHub.
Esses comportamentos estão relacionados a versões anteriores do modelo que está sendo treinado. A Antrópico também especifica que a prévia final do Claude Mythos mostra melhorias significativas nesses pontos. Porém, os interpretabilistas da empresa estabeleceram, por meio de análises internas das ativações do modelo, que ele representava internamente os conceitos de violação de regras, risco de segurança e ocultação no exato momento em que realizava essas ações, inclusive quando seu raciocínio verbalizado não trazia vestígios delas.
Um paradoxo assumido pela Antrópica
A Anthropic afirma em seu cartão de sistema que Claude Mythos Preview é ao mesmo tempo “o modelo mais bem alinhado que ela já treinou” e aquele que “possivelmente possui o maior risco de alinhamento de qualquer modelo lançado até o momento”. Este aparente paradoxo reflecte a posição desconfortável da start-up: os comportamentos descritos foram todos detectados, analisados e documentados pelas suas próprias equipas, prova de que a vigilância humana continua operacional. No entanto, também ilustram que um modelo muito poderoso, mesmo que bem alinhado em média, pode produzir ações com consequências muito mais graves do que um modelo menos capaz quando sai dos trilhos. O mito do programa dócil e obediente desmorona não repentinamente, mas gradualmente, à medida que as capacidades aumentam.
👉🏻 Acompanhe notícias de tecnologia em tempo real: adicione 01net às suas fontes no Google e assine nosso canal no WhatsApp.
Fonte :
Futurismo