Onde os editores de IA encontram as montanhas de texto necessárias para seu treinamento?

Quanto maior, melhor: o aforismo pode ser deselegante, mas é uma das chaves para o sucesso do ChatGPT. Além do aumento fenomenal do número de neurônios artificiais, para treiná-los foi necessário desenterrar uma massa de textos equivalente a vários milhões de livros, no mínimo. Ao se lançarem na corrida pelo gigantismo, os concorrentes da OpenAi também baixaram imensas pilhas de palavras de origem misteriosa e até duvidosa.

Na descrição de sua inteligência artificial (IA), a OpenAI e o Google apresentam essas bibliotecas digitais em termos concisos: seriam pilhas de páginas e escritos da Internet cujos autores foram remunerados. Na Anthropic, o arquivo dedicado a Claude Sonnet 4.6 fica até completamente vazio quando se discute a questão dos dados de treinamento. Esta grande imprecisão é parcialmente explicada pelas tensões ligadas aos julgamentos em curso de autores que acusam os criadores da IA de violarem os seus direitos.

No entanto, artigos de pesquisa antigos da Anthropic, Meta, Google e OpenAI deixam vislumbre algumas das fontes que forneceram as primeiras versões de seus modelos. Entre eles: a enciclopédia Wikipédia, que contém alguns bilhões de palavras, e o Commoncrawl, um catálogo de 300 bilhões de páginas da Internet sugadas desde 2008 – incluindo artigos de jornais em princípio reservados aos assinantes, apesar das promessas de retirada feitas aos seus editores, revelou em novembro passado uma investigação da mídia O Atlântico.

Você ainda tem 72,47% deste artigo para ler. O restante é reservado aos assinantes.

Fonte

Onde os editores de IA encontram as montanhas de texto necessárias para seu treinamento?

Byirabrins771@gmail.com

By irabrins771@gmail.com

Related Post

Deixe um comentário Cancelar resposta

You missed

Fort Boyard: Esta novidade espera por você para a próxima temporada com a chegada de Cyril Féraud

“O Sudão, devastado por dois senhores da guerra, apresenta o quadro do maior drama humanitário do momento”

como funciona a nova tecnologia da Samsung? — Frandroid

The Handmaid’s Tale chega à Netflix pela primeira vez e já temos a data