Quanto maior, melhor: o aforismo pode ser deselegante, mas é uma das chaves para o sucesso do ChatGPT. Além do aumento fenomenal do número de neurônios artificiais, para treiná-los foi necessário desenterrar uma massa de textos equivalente a vários milhões de livros, no mínimo. Ao se lançarem na corrida pelo gigantismo, os concorrentes da OpenAi também baixaram imensas pilhas de palavras de origem misteriosa e até duvidosa.

Na descrição de sua inteligência artificial (IA), a OpenAI e o Google apresentam essas bibliotecas digitais em termos concisos: seriam pilhas de páginas e escritos da Internet cujos autores foram remunerados. Na Anthropic, o arquivo dedicado a Claude Sonnet 4.6 fica até completamente vazio quando se discute a questão dos dados de treinamento. Esta grande imprecisão é parcialmente explicada pelas tensões ligadas aos julgamentos em curso de autores que acusam os criadores da IA ​​de violarem os seus direitos.

No entanto, artigos de pesquisa antigos da Anthropic, Meta, Google e OpenAI deixam vislumbre algumas das fontes que forneceram as primeiras versões de seus modelos. Entre eles: a enciclopédia Wikipédia, que contém alguns bilhões de palavras, e o Commoncrawl, um catálogo de 300 bilhões de páginas da Internet sugadas desde 2008 – incluindo artigos de jornais em princípio reservados aos assinantes, apesar das promessas de retirada feitas aos seus editores, revelou em novembro passado uma investigação da mídia O Atlântico.

Você ainda tem 72,47% deste artigo para ler. O restante é reservado aos assinantes.

Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *