AlphaGenome, ferramenta de inteligência artificial (IA) do Google tornada pública na quarta-feira, dá mais um passo na compreensão do genoma, analisando como porções de DNA regulam a atividade genética na célula.

A decifração de todo o genoma humano, em 2003, “nos deu o livro da vida, mas lê-lo continua sendo um desafio”, lembrou Pushmeet Kohli, vice-presidente de pesquisa do Google DeepMind, durante a apresentação do AlphaGenome na revista Nature.

“Temos o texto” – a sucessão de 3 mil milhões de pares de nucleótidos A, T, C e G que constituem o ADN -, mas “compreender a gramática (…) e a forma como esta rege a vida constitui a próxima grande fronteira da investigação”, sublinhou à imprensa.

Apenas 2% das sequências de DNA “codificam” diretamente proteínas, que são essenciais para o funcionamento dos organismos vivos.

Os restantes 98% têm um papel de “condutor”: coordenam, protegem e regulam a expressão da informação genética em cada uma das nossas células. Estas sequências, denominadas “não codificantes”, contêm inúmeras variantes associadas a doenças.

É isso que o AlphaGenome estuda, complementando os demais modelos desenvolvidos pelo laboratório de IA do Google: AlphaMissense (análise de sequências codificadoras de DNA), AlphaProteo (desenho de proteínas) e AlphaFold (previsão da estrutura de proteínas, Prêmio Nobel de Química em 2024).

O modelo de aprendizagem profunda (no qual uma rede neural aprende a reconhecer automaticamente padrões complexos) foi treinado com dados de grandes consórcios públicos, que mediram experimentalmente estas propriedades em centenas de tipos de células e tecidos em humanos e ratos.

É capaz de analisar uma longa sequência de DNA e “prever” a influência de cada par de nucleotídeos em diferentes processos biológicos da célula: ativar ou reprimir a expressão de um gene, controlar a montagem do RNA (uma “cópia” do DNA que transmite informação genética na célula)…

– “Fundamental” mas “não perfeito” –

Outros modelos já existiam. Mas eles tiveram que fazer um compromisso entre a duração das sequências analisadas e a precisão da resolução.

No entanto, uma sequência longa – até um milhão de pares de nucleotídeos – é “necessária para compreender o ambiente regulatório completo de um único gene”, explica Ziga Avsec, um dos coautores do projeto.

E a finura da resolução torna possível estudar o efeito das variantes genéticas comparando as previsões das sequências mutadas com as das sequências não mutadas.

Outro avanço, o AlphaGenome modela simultaneamente a influência da sequência em onze processos biológicos, enquanto até agora os cientistas tinham que usar vários modelos.

Esta ferramenta “pode acelerar a nossa compreensão do genoma, ajudando a mapear a localização dos elementos funcionais e a determinar os seus papéis a nível molecular”, acredita Natasha Latysheva, também coautora.

“Esperamos que os investigadores enriqueçam com mais dados e modalidades” o modelo, já testado por 3.000 cientistas de 160 países e agora disponível como código aberto para investigação não comercial, sublinha Kohli.

“Identificar com precisão as diferenças nos nossos genomas que nos tornam mais ou menos suscetíveis ao desenvolvimento de milhares de doenças é um passo fundamental para melhores tratamentos”, observa Ben Lehner, chefe de genómica generativa e sintética do Instituto Wellcome Sanger, em Cambridge.

O pesquisador, que não participou do projeto, mas testou o modelo, julga-o “muito eficiente”, mas ainda “longe de ser perfeito”.

“Os modelos de IA são tão bons quanto os dados usados ​​para treiná-los”, e a maioria dos conjuntos de dados existentes “são muito pequenos e insuficientemente padronizados”, explica ele em reação à organização britânica Science Media Centre (SMC).

O AlphaGenome não é uma “solução milagrosa para todas as questões biológicas”, sendo a expressão dos genes “influenciada por fatores ambientais complexos”, mas constitui uma “ferramenta fundamental”, acrescenta Robert Goldstone, chefe de genómica do Instituto Francis Crick, citado no mesmo texto.

Segundo ele, esta nova ferramenta permitirá aos cientistas “estudar e simular programaticamente as bases genéticas de doenças complexas”.

Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *