Quanto maior, melhor: o aforismo pode ser deselegante, mas é uma das chaves para o sucesso do ChatGPT. Além do aumento fenomenal do número de neurônios artificiais, para treiná-los foi necessário desenterrar uma massa de textos equivalente a vários milhões de livros, no mínimo. Ao se lançarem na corrida pelo gigantismo, os concorrentes da OpenAi também baixaram imensas pilhas de palavras de origem misteriosa e até duvidosa.
Na descrição de sua inteligência artificial (IA), a OpenAI e o Google apresentam essas bibliotecas digitais em termos concisos: seriam pilhas de páginas e escritos da Internet cujos autores foram remunerados. Na Anthropic, o arquivo dedicado a Claude Sonnet 4.6 fica até completamente vazio quando se discute a questão dos dados de treinamento. Esta grande imprecisão é parcialmente explicada pelas tensões ligadas aos julgamentos em curso de autores que acusam os criadores da IA de violarem os seus direitos.
No entanto, artigos de pesquisa antigos da Anthropic, Meta, Google e OpenAI deixam vislumbre algumas das fontes que forneceram as primeiras versões de seus modelos. Entre eles: a enciclopédia Wikipédia, que contém alguns bilhões de palavras, e o Commoncrawl, um catálogo de 300 bilhões de páginas da Internet sugadas desde 2008 – incluindo artigos de jornais em princípio reservados aos assinantes, apesar das promessas de retirada feitas aos seus editores, revelou em novembro passado uma investigação da mídia O Atlântico.
Você ainda tem 72,47% deste artigo para ler. O restante é reservado aos assinantes.