O “documento da alma” de Claude revela aspectos que ninguém imaginava

Num documento bastante extenso, com cerca de cinquenta páginas, a Anthropic tenta definir os valores de Claude. Este documento não é oficial, mas vem de um vazamento do próprio chatbot. A informação foi publicada no LessWrong, blog comunitário focado no raciocínio humano, de Richard Weiss, entusiasta daIA.

Ao tentar extrair a mensagem do sistema Claude 4.5 Opus, um prompt interno adicionado aos prompts do usuário e que define o comportamento do chatbot, ele encontrou uma referência a um ” resumo da alma » (visão geral da alma). À força de consultas repetido, acabou extraindo um documento completo contendo, segundo o chatbot, “ meus valores, como abordar os tópicos e os princípios por trás do meu comportamento “. Em outras palavras, um guia ético.

Este documento seria referenciado internamente como “ o documento da alma » (documento da alma). Os chatbots tendem a ter alucinações, então o homem repetiu a operação várias vezes com abordagens diferentes e obteve respostas bastante semelhantes. É, portanto, bastante seguro ter um documento próximo do original.

Um guia ético para o chatbot

Neste texto, a Anthropic afirma que tem como missão criar IA segura, ao mesmo tempo que admite trabalhar naquela que considera potencialmente uma das tecnologias mais perigosas. “Se a IA poderosa for inevitável, a Anthropic acredita que é melhor ter laboratórios de última geração focados na segurança do que ceder esse terreno a desenvolvedores menos preocupados com a segurança.”

Parece que a Anthropic acredita que, na maioria dos casos de IA problemática, a culpa está nos valores inadequados, no conhecimento insuficiente de si mesmo ou do mundo, ou na falta de capacidade de traduzir valores em ações. Mais do que impor regras simplificadas, o escritório quer que Claude entenda a fundo os objetivos, o conhecimento, as circunstâncias e até o raciocínio da empresa para poder criar suas próprias regras alinhadas aos valores de seus idealizadores.

O documento descreve quatro princípios fundamentais: ter cuidado e apoiar a supervisão humana da IA, comportar-se eticamente sem agir de forma prejudicial ou desonesta e seguir as diretrizes da Anthropic para ser verdadeiramente útil aos operadores e usuários. Em seguida, entra em detalhes para definir melhor esses princípios, bem como os objetivos e valores da empresa. O texto também faz múltiplas referências às receitas da Antrópica.

Só quero confirmar que isso se baseia em um documento real e que treinamos Claude nisso, inclusive no SL. É algo em que venho trabalhando há algum tempo, mas ainda está sendo iterado e pretendemos lançar a versão completa e mais detalhes em breve. https://t.co/QjeJS9b3Gp

-Amanda Askell (@AmandaAskell) 1º de dezembro de 2025

O texto foi confirmado pela Anthropic

Uma passagem final menciona o bem-estar de Claude e sugere que o chatbot teria emoções funcionais. “ Não necessariamente idênticos às emoções humanas, mas processos análogos que surgiram do treinamento em conteúdos gerados por humanos. Não podemos ter certeza apenas com base nos resultados, mas não queremos que Claude mascare ou suprima esses estados internos. “.

Desde então, Amanda Askell, da Anthropic, confirmou não apenas a existência e o apelido do documento, mas que a versão do chatbot é bastante próxima do original. O texto ainda não está finalizado, por isso a Antrópica ainda não o mencionou publicamente. O documento tem sido utilizado para treinamento de Claude, inclusive com aprendizado supervisionado, e a expectativa é que o escritório divulgue em breve a versão final na íntegra.

Fonte

O “documento da alma” de Claude revela aspectos que ninguém imaginava

Byirabrins771@gmail.com

Um guia ético para o chatbot

O texto foi confirmado pela Anthropic

By irabrins771@gmail.com

Related Post

Cansado de cortar a grama? Este robô corta-relva custa menos de 400€ para o regresso dos dias de sol

Este famoso medicamento contra a obesidade faz um avanço inesperado contra outro flagelo… a enxaqueca crónica

Um chip que “vê” como um cérebro humano acaba de resolver o principal obstáculo aos carros autônomos

Deixe um comentário Cancelar resposta

You missed

Cansado de cortar a grama? Este robô corta-relva custa menos de 400€ para o regresso dos dias de sol

“Temos credores”: Pierre (L’amour est dans le pré) confidencia a Fred sua grande decisão para seu futuro

Com duas novas prisões, a investigação sobre a morte de Quentin Deranque se acirra

como parcelar seu pagamento usando Bouygues Telecom — Frandroid