
Este artigo de Théo Brajard é retirado da revista mensal Sciences et Avenir n°951, datada de maio de 2026.
Como podemos garantir que a inteligência artificial respeita os princípios éticos dos seres humanos e os seus objetivos? Este espinhoso problema, o do alinhamento, visa principalmente prevenir comportamentos indesejáveis ou uso indevido da IA para fins maliciosos. A resposta da Antrópico a esta questão, para o seu agente conversacional Claude, pretende ser inovadora.
Em vez de ditar ao modelo linguístico qual ação seguir, a empresa pretende explicar por que deveria agir de uma forma ou de outra. É por isso que a sua IA tem uma nova “constituição”. Este documento de 84 páginas, publicado em janeiro passado, “desempenha um papel crucial no nosso processo de formação “, afirma Antrópico no preâmbulo. Descreve os princípios fundamentais que Claude deve adotar: ser seguro, ético, respeitar as diretrizes de seu criador e ser útil.
O texto desenvolve para cada um deles as regras a respeitar e seus objetivos, além de priorizá-los de acordo com o contexto. Desta forma, a Anthropic espera transmitir a Claude “bons valores e bom julgamento em vez de regras rígidas e procedimentos de tomada de decisão “, que não pode se adaptar a todas as situações dependendo da empresa.
Mehdi Khamassi, diretor de pesquisa do CNRS designado para o Instituto de Sistemas Inteligentes e Robótica, tem um ponto de vista semelhante. Em artigo publicado em Natureza em agosto de 2024, considera que métodos clássicos como a aprendizagem por reforço com feedback humano produzem alinhamento “fraco” provavelmente falhará diante de uma situação ambígua. No entanto, o pesquisador acredita que a constituição de Claude não é uma ferramenta suficiente para alcançar um alinhamento “forte”, ou seja, uma verdadeira compreensão dos valores humanos, bem como uma capacidade de identificar as intenções dos usuários e antecipar os efeitos de suas ações. “O texto não aborda o problema desta forma “, juiz Mehdi Khamassi. Ele, no entanto, reconhece que “desenvolver extensamente as linhas vermelhas que não devem ser ultrapassadas provavelmente aumentará a probabilidade de um bom alinhamento “.
Leia tambémAI: o Pentágono escolhe OpenAI após se livrar da Antrópica
Desenvolva uma identidade “positiva e estável”
Antes de concluir, a empresa questiona a natureza de Claude. Este poderia ter sensibilidade moral e experiência “uma forma funcional de emoções “, porque seu treinamento é baseado em dados gerados por humanos. A Antrópica espera que sua IA desenvolva uma identidade “positivo e estável “, mais propenso a limitar os riscos.
Embora não tenha dúvidas de que esta abordagem pode ter interesse científico, Mehdi Khamassi observa que “a antropomorfização também permite que sejam comentados e atraiam investidores “. A pesquisadora acrescenta que com essa postura, “está se tornando mais difícil para os humanos e especialmente para os não-cientistas entenderem o que esses sistemas são e fazem “. Algo que possa prejudicar nosso “Autonomia epistêmica ” que a constituição de Claude pretende, no entanto, proteger.