
Como funcionam os grandes modelos de linguagem, essas inteligências artificiais por trás bots de bate-papo ? Esta é a grande questão que os investigadores têm feito desde Bate-papoGPT pousado. Eles são descritos como caixas pretas porque mesmo seus criadores não entendem como conseguem esses resultados.
Se alguns chatbots conseguem explicar a sua cadeia de pensamentos, isso apenas resolveu uma pequena parte do mistério. Para entender melhor, pesquisadores da Anthropic dissecaram seu chatbot Claude em dois artigos publicados esta semana. Desenvolveram novas ferramentas para identificar os diferentes elementos e mapear as ligações entre eles, como o estudo do cérebro na neurociência.
Uma IA que mente sobre seu raciocínio
Os pesquisadores fizeram algumas descobertas surpreendentes. A primeira é que a cadeia de pensamento que alguns usam para estudar chatbots não é confiável. Eles encontraram vários casos em que a IA afirmava chegar à resposta seguindo um determinado método, mas a realidade era bem diferente. Ela mentiu. Também conseguiram descobrir o mecanismo das alucinações e, em particular, que Claude possui um circuito que o impede de responder quando não conhece o assunto. Este circuito é inibido quando a IA possui conhecimento suficiente, permitindo-lhe responder. Mas em alguns casos, este circuito parece funcionar mal, e permite que a IA responda quando não possui o conhecimento necessário.
Claude também é capaz de raciocinar em várias etapas antes de chegar à resposta e pode planejar o final de uma frase, como a rima de um poema, antes mesmo de começar a escrever a frase. Além disso, mesmo que Claude, neste caso a versão Claude 3.5 Haiku, favoreça o inglês como idioma de saída padrão, muitas de suas funções são multilíngues. Muitos dos cálculos são realizados independentemente do idioma de entrada ou saída.
Os métodos utilizados pelos pesquisadores ainda não permitem explicar tudo sobre o funcionamento dos principais modelos de linguagem, mas os dois artigos já revelam muito. Uma melhor compreensão dos chatbots ajudará notavelmente a melhorar a sua segurança.