
Os pesquisadores projetaram duas versões da IA: uma “pequena”, com 7 bilhões de parâmetros, e uma maior, com 40 bilhões (para efeito de comparação, o ChatGPT 3 tinha 175 bilhões de parâmetros). Eles treinaram o Evo 2 com as sequências genéticas de um grande número de espécies procarióticas (como bactérias) e eucarióticas (como humanos). Segundo os autores, isso corresponderia a um total de aproximadamente 8,8 trilhões de nucleotídeos (ou 8,8 trilhões de nucleotídeos, os blocos de construção que formam o DNA). Para efeito de comparação, o genoma humano contém aproximadamente 3 bilhões de nucleotídeos.
Depois, a IA foi treinada para analisar pedaços de um milhão de nucleotídeos, para aprender como os diferentes elementos do genoma interagem entre si, mesmo a longas distâncias. No entanto, não incluíram sequências de vírus que pudessem infectar humanos, para evitar que a sua ferramenta fosse utilizada para conceber novos vírus patogénicos.
Leia tambémUm grande avanço em direção ao primeiro eucarioto com genoma totalmente sintético
“Pensando na linguagem dos nucleotídeos”
Graças a esta gigantesca base de dados, a inteligência artificial foi capaz de detectar padrões conservados em todos os genomas. Isso lhe permitiu identificar regiões importantes de um genoma e prever sua função. “Assim como o mundo deixou a sua marca na linguagem da Internet usada para treinar modelos de linguagem, a evolução deixou a sua marca nas sequências biológicas, explica Brian Hie, pesquisador de Stanford e do Arc Institute, e diretor do estudo, em comunicado à imprensa. Esses padrões, refinados ao longo de milhões de anos, contêm sinais sobre como as moléculas funcionam e interagem.
A ferramenta também conseguiu prever as consequências de uma mutação ao nível do DNA, bem como do RNA (molécula móvel que transcreve a informação contida no genoma para permitir a produção de proteínas) e proteínas. E isso, independentemente da espécie de onde veio a sequência genética. Assim, ele conseguiu prever corretamente o efeito negativo de mutações humanas conhecidas no gene BRCA1, envolvido no câncer de mama. No entanto, a IA não foi treinada com anotações sobre essas mutações ou sobre as funções de diferentes partes do genoma. O Evo 2 simplesmente aprendeu analisando sequências genéticas, da mesma forma que o ChatGPT aprende a escrever simplesmente lendo textos na internet. “Este modelo permite que a máquina leia, escreva e pense na linguagem dos nucleotídeos.”resume o codiretor do estudo, Patrick Hsu, fundador do Arc Institute e pesquisador da Universidade da Califórnia, Berkeley.
Leia também“Colapso mutacional”: mamíferos não podem ser clonados indefinidamente
Evo 2 imita os genomas presentes na natureza…
E como outras IAs generativas, o Evo 2 não apenas analisa dados, ele pode gerá-los. Os pesquisadores testaram sua capacidade de gerar sequências de DNA, dando-lhe o início de uma sequência genética real e dizendo-lhe para terminá-la (da mesma forma que você daria ao ChatGPT o início de uma frase para completá-la). A IA conseguiu adivinhar a sequência do gene com alto índice de sucesso, exceto as sequências virais, já que essas sequências não faziam parte do treinamento.
Segundo os autores, o Evo 2 foi capaz até de gerar imagens de genomas inteiros. Eles primeiro o testaram com DNA mitocondrial (o pequeno genoma de fita dupla contido nas mitocôndrias, as fábricas de energia das células, uma das quais tem pouco mais de 16.000 nucleotídeos de comprimento). A IA conseguiu incluir o número certo de regiões codificantes (que contêm os genes), RNAs ribossômicos e RNAs de transferência, embora suas sequências não fossem exatamente iguais às do DNA mitocondrial humano real. Porém, as estruturas das proteínas codificadas por esse DNA eram semelhantes às das proteínas mitocondriais reais, mostrando que a IA é capaz de imitar bem a natureza. Depois pediram ao Evo 2 para gerar genomas de bactérias (algumas centenas de milhares de nucleotídeos) e um cromossomo de levedura (também algumas centenas de milhares de nucleotídeos). As sequências criadas pela IA não eram idênticas às da espécie em questão, mas eram semelhantes o suficiente para manter os elementos essenciais na ordem correta. Porém, os autores especificam que isso não significa que essas sequências genéticas possam produzir seres viáveis, este é um teste que deverá ser realizado posteriormente.
… mas também pode criar novos
Por fim, os pesquisadores avaliaram a capacidade do Evo 2 de “brincar” com o genoma, inventando sequências respeitando as regras básicas da genômica. Uma dessas regras é que, por vezes, há regiões do genoma que estão expostas, e cujos genes podem ser lidos, e regiões que não estão expostas. Eles usaram essas diferentes regiões para escrever em código Morse: disseram à IA que uma pequena região acessível equivalia a um ponto, uma região longa acessível a um desenho e uma região inacessível a um espaço. Seguindo esta regra, pediram-lhe que desenhasse sequências genéticas que incluíssem mensagens em código Morse, incluindo “EVO2”. A IA gerou as sequências solicitadas e os pesquisadores confirmaram com sucesso a presença do código Morse in vivo:Eles têm integrou essas sequências ao genoma de células-tronco de camundongos, a fim de avaliar a real acessibilidade de cada região da sequência criada pelo Evo 2. Mostrando que é possível solicitar à IA a criação de novas sequências, respeitando regras dadas pelo usuário.
“Evo 2 tem uma compreensão geral da árvore da vida, que é útil para uma infinidade de tarefas, desde a previsão de mutações patogênicas até a concepção de código potencial para vida artificial.conclui Patrick Hsu. Estamos ansiosos para ver o que a comunidade científica constrói a partir desses modelos”. Os autores enfatizam que levaram em consideração a possibilidade de sua IA poder ser usada para produzir patógenos, por isso não a treinaram com sequências virais que pudessem infectar humanos. Mas não são apenas os vírus que são patogênicos. As bactérias, por exemplo, também podem ser. Parece, portanto, urgente que sejam implementadas salvaguardas, para que a vida artificial não acabe por destruir a vida real.