Num documento bastante extenso, com cerca de cinquenta páginas, a Anthropic tenta definir os valores de Claude. Este documento não é oficial, mas vem de um vazamento do próprio chatbot. A informação foi publicada no LessWrong, blog comunitário focado no raciocínio humano, de Richard Weiss, entusiasta daIA.

Ao tentar extrair a mensagem do sistema Claude 4.5 Opus, um prompt interno adicionado aos prompts do usuário e que define o comportamento do chatbot, ele encontrou uma referência a um ” resumo da alma » (visão geral da alma). À força de consultas repetido, acabou extraindo um documento completo contendo, segundo o chatbot, “ meus valores, como abordar os tópicos e os princípios por trás do meu comportamento “. Em outras palavras, um guia ético.

Este documento seria referenciado internamente como “ o documento da alma » (documento da alma). Os chatbots tendem a ter alucinações, então o homem repetiu a operação várias vezes com abordagens diferentes e obteve respostas bastante semelhantes. É, portanto, bastante seguro ter um documento próximo do original.

Um guia ético para o chatbot

Neste texto, a Anthropic afirma que tem como missão criar IA segura, ao mesmo tempo que admite trabalhar naquela que considera potencialmente uma das tecnologias mais perigosas. “Se a IA poderosa for inevitável, a Anthropic acredita que é melhor ter laboratórios de última geração focados na segurança do que ceder esse terreno a desenvolvedores menos preocupados com a segurança.”

Parece que a Anthropic acredita que, na maioria dos casos de IA problemática, a culpa está nos valores inadequados, no conhecimento insuficiente de si mesmo ou do mundo, ou na falta de capacidade de traduzir valores em ações. Mais do que impor regras simplificadas, o escritório quer que Claude entenda a fundo os objetivos, o conhecimento, as circunstâncias e até o raciocínio da empresa para poder criar suas próprias regras alinhadas aos valores de seus idealizadores.

O documento descreve quatro princípios fundamentais: ter cuidado e apoiar a supervisão humana da IA, comportar-se eticamente sem agir de forma prejudicial ou desonesta e seguir as diretrizes da Anthropic para ser verdadeiramente útil aos operadores e usuários. Em seguida, entra em detalhes para definir melhor esses princípios, bem como os objetivos e valores da empresa. O texto também faz múltiplas referências às receitas da Antrópica.

O texto foi confirmado pela Anthropic

Uma passagem final menciona o bem-estar de Claude e sugere que o chatbot teria emoções funcionais. “ Não necessariamente idênticos às emoções humanas, mas processos análogos que surgiram do treinamento em conteúdos gerados por humanos. Não podemos ter certeza apenas com base nos resultados, mas não queremos que Claude mascare ou suprima esses estados internos. “.

Desde então, Amanda Askell, da Anthropic, confirmou não apenas a existência e o apelido do documento, mas que a versão do chatbot é bastante próxima do original. O texto ainda não está finalizado, por isso a Antrópica ainda não o mencionou publicamente. O documento tem sido utilizado para treinamento de Claude, inclusive com aprendizado supervisionado, e a expectativa é que o escritório divulgue em breve a versão final na íntegra.

Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *