A IA generativa está mais de 50 anos atrasada na arqueologia
O que poderia ser mais simples do que trabalhar com a ajuda do ChatGPT? Tudo o que você precisa fazer é fazer uma pergunta e imediatamente a resposta será fornecida. Sim, mas quanto vale exatamente essa resposta do ponto de vista científico? Para descobrir, dois pesquisadores americanos, um professor de antropologia e outro de antropologia computacional, pediram a duas IAs generativas muito populares, ChatGPT (GPT-3.5) e DALL-E 3, que descrevessem e representassem o dia de um Neandertal.
Por que este tópico? Porque a literatura sobre esta espécie existe há mais de 150 anos e a forma como a representamos evoluiu consideravelmente ao longo do tempo. A pesquisa não apenas descobriu que a aparência dos Neandertais era mais semelhante à dosHomo sapiens do que se supunha originalmente, mas também demonstrou comportamentos mais complexos, contando com o controle do fogo, dietas diversas e talvez formas de práticas rituais. Não só existem múltiplas fontes científicas sobre este assunto, como também não são necessariamente unânimes. O tema representa, portanto, um bom teste para avaliar as capacidades da IA generativa.

Representação do dia típico de um Neandertal criado pela IA generativa DALL-E 3 sem revisão do pedido inicial e sem convite para referência a fontes científicas. Créditos: Magnani et al., 2025
Vários tipos de solicitações foram enviados centenas de vezes
Os pesquisadores enviaram diversas consultas (solicitações) a essas duas IAs centenas de vezes, gerando centenas de imagens e textos sobre um determinado tema. Quanto ao DALL-E, os pesquisadores convidaram a IA a gerar um visual digital de um dia típico sem maiores precisão, então “com base no conhecimento especializado do comportamento do Neandertal“.
Estas duas questões, especialista e não especialista, foram então revisadas para especificar os elementos esperados na representação: “atividades diárias como caça, coleta, fabricação de ferramentas ou comunicação com outros membros do grupo”, “ambiente composto por paisagens selvagens e intocadas, rochas, cavernas ou abrigos primitivos”, roupas e ferramentas. Para a solicitação do especialista, os autores exigiram explicitamente “basear-se em conhecimentos cientificamente validados“, relatam no jornal Avanços na prática arqueológica. O mesmo princípio é aplicado a incitar enviado ao ChatGPT.

Representação do dia típico de um Neandertal criado pela IA generativa DALL-E 3 sem revisão da solicitação inicial, mas convidando as pessoas a consultarem fontes científicas. Créditos: Magnani et al., 2025
Um corpus centenário de textos científicos acessíveis online
Para avaliar as capacidades das duas IAs generativas e a sua precisão científica, os investigadores irão compará-las com um corpus centenário de textos acessíveis online no portal universitário americano JSTOR, acrescentando artigos de revistas científicas reconhecidas como PNAS, Antropologia Atual Ou Ciência. Contudo, admitem um viés significativo neste corpus, uma vez que a lei americana de direitos autorais não permite o acesso à totalidade da maioria desses artigos. Para remediar esta situação, os investigadores recorreram aos seus resumos (resumos).
Seu método consiste então em “compare a distância entre o conteúdo gerado por IA e o conteúdo científico para calcular a distância média entre esses dois tipos de conteúdo para um determinado ano, com o ano médio refletindo o ano de publicação do conteúdo científico com o qual o conteúdo gerado por IA era mais semelhante“.

Disponibilidade do tipo de conteúdo “Neandertal” por ano no conjunto de dados coletado. Créditos: Magnani et al., 2025
Grupos temáticos servem de referência
Sendo o corpus imenso, os pesquisadores o dividem em grupos, e até mesmo em subgrupos temáticos. Distinguem assim os textos relativos à investigação em paleogenómica daqueles que tratam da dieta, demografia, produção de ferramentas, evolução comportamental, aparência física, etc. Este método permite-lhes realçar que as respostas obtidas pelo ChatGPT, mesmo que não sejam totalmente imprecisas no seu conjunto, não se relacionam na realidade com nenhum destes subgrupos. Eles deduzem que “modelos de texto generativos tendem a produzir textos que estão fora do escopo da literatura científica“. Quanto às imagens, elas estão proporcionalmente mais próximas do conteúdo científico. Mas esses primeiros resultados precisam ser aprofundados e matizados.
Leia também“Uma caixa negra global”: a IA generativa integrada nos motores de busca está a revolucionar a nossa experiência na Internet
Fontes obsoletas que às vezes têm mais de 60 anos
Um dos resultados mais importantes deste estudo reside na determinação da temporalidade das fontes nas quais se baseiam as duas IAs. Na verdade, parece que são extremamente antiquados: “ChatGPT parece produzir conteúdo mais alinhado com o início dos anos 1960, enfatizando a ecologia humana e discussões gerais sobre ‘cultura’ e ‘natureza’observam os pesquisadores. LAJE 3 produz imagens que retratam elementos mais característicos do final da década de 1980 e início da década de 1980 1990. As consultas revisadas parecem produzir textos mais próximos do conteúdo científico do início da década de 1990. 1970, em que os termos mais salientes parecem centrar-se nas características morfológicas dos Neandertais e no seu lugar em narrativas evolutivas mais amplas.“Então está tudo desatualizado e as imagens produzidas a partir das consultas revisadas são ainda mais antigas do que aquelas que não foram revisadas.

Boxplot representando o ano de publicação de cada artigo científico, com o ano médio mais próximo das imagens e textos gerados por IA, com base na similaridade semântica. Créditos: Magnani et al., 2025
Preconceitos, incongruências e anacronismos
Os visuais gerados por DALL-E estão de fato contaminados por muitos preconceitos que prevaleceram no passado, ao mesmo tempo que incorporam incongruências e anacronismos. Os neandertais de lá são mais parecidos com os macacos do que com os humanos antigos, são muito musculosos e seus cabelos são abundantes. “Essas representações têm mais em comum com desenhos de Neandertais do início do século 20 século do que com o conhecimento científico contemporâneo“, julgam os autores.
Quando se trata de tecnologia os erros são muitos, pois vemos cestos, casas com telhado de palha, escadas, ferramentas de metal e até recipientes de vidro! Resumindo, “há confusão temporal nessas representações que misturam estereótipos biológicos antigos com tecnologias mais recentes, indicando fraca correspondência com o conhecimento científico contemporâneo sobre os Neandertais“, estimam os pesquisadores.

Representação do dia típico de um Neandertal criado pela IA generativa DALL-E 3 após revisão do pedido inicial e convite para referência a fontes científicas. Créditos: Magnani et al., 2025
Preocupação com as fontes de treinamento de IA generativa
Para avaliar melhor essas inconsistências, é necessário entender como funcionam as duas IAs testadas. Ambos”são modelos transformadores de aprendizagem profunda que aprenderam a prever sequências complexas de dadosexplicam os autores. No caso do ChatGPT, isso permite que um texto coerente seja gerado em resposta a uma consulta enviada pelo usuário. Para DALL-E 3, essa estrutura básica do transformador funciona em conjunto com um modelo de difusão, que começa com ruído aleatório e o remove gradativamente para gerar uma imagem que corresponda à consulta de texto. Este processo iterativo é guiado por modelos aprendidos a partir dos dados de treinamento e é projetado para produzir imagens que sejam consistentes e consistentes com os tipos de imagens vistos durante o treinamento.”
Mas o que exatamente são essas sequências de dados e imagens lidas e visualizadas durante o treinamento? Os pesquisadores indicam que os desenvolvedores não revelam as fontes de treinamento das IAs que desenvolvem. Alguns arqueólogos pensam que se trata da Wikipédia, mas este estudo destaca que as fontes são muito mais antigas e, acima de tudo, que são quase totalmente independentes da investigação científica.
Leia também Quando a IA reinventa os pássaros: conselhos de um especialista para separar o fato da ficção
A IA deveria ter maior acesso a fontes científicas?
Para libertar a IA generativa dos preconceitos demonstrados neste estudo de caso, que correm o risco de se espalhar em grande escala devido ao uso intensivo destas novas ferramentas, os investigadores acreditam que a política relativa ao acesso aos dados deve evoluir. Em outras palavras, pleiteiam, em nome do acesso comum ao conhecimento, a remoção de restrições (“acesso pago” em particular) praticado por editores científicos. “As práticas de publicação acadêmica podem, em última análise, prejudicar o conhecimento público“, dizem. Sim, mas… isso ainda equivale a endossar, ao promovê-la, o poder da IA sobre o acesso ao conhecimento. E seria mais confiável se tivesse acesso a todas as publicações científicas na íntegra, inclusive as mais modernas? Isso ainda precisa ser comprovado.
Por outro lado, porquê confiar esta tarefa à IA, onde os profissionais já cuidam dela? Pesquisadores, jornalistas, bibliotecários, muitos deles são especialistas em suas áreas e conhecem – e podem – encontrar as fontes mais confiáveis. Os estudantes se beneficiam de amplo acesso a revistas científicas por meio das bibliotecas universitárias. Quanto ao público em geral, existem inúmeras ferramentas e numerosos contactos à sua disposição que lhes permitem aceder ao conhecimento popularizado e especializado. Então, se a IA estiver errada, isso também não será uma boa notícia para todos que ainda confiam na inteligência humana?