Como os modelos generativos de linguagem de IA estão desvendando os segredos do DNA

Da expressão gênica ao design de proteínas, grandes modelos de linguagem estão criando um conjunto de poderosas ferramentas genômicas.
  um fundo azul e preto com letras e números.
Crédito: Spaulding / Adobe Stock
Principais conclusões
  • Os modelos de linguagem de DNA podem identificar facilmente padrões estatísticos em sequências de DNA.
  • As aplicações vão desde prever o que as diferentes partes do genoma fazem até como os genes interagem uns com os outros.
  • As tendências alucinatórias da IA ​​generativa podem ser reaproveitadas para projetar novas proteínas a partir do zero.
Sachin Rawat Compartilhe Como os modelos generativos de linguagem de IA estão desvendando os segredos do DNA no Facebook Compartilhe Como os modelos generativos de linguagem de IA estão desvendando os segredos do DNA no Twitter Compartilhe Como os modelos generativos de linguagem de IA estão desvendando os segredos do DNA no LinkedIn

Modelos de linguagem grandes (LLMs) aprendem com associações estatísticas entre letras e palavras para prever o que vem a seguir em uma frase e são treinados em grandes quantidades de dados. Por exemplo, o GPT-4, que é o LLM subjacente ao popular aplicativo de IA generativo ChatGPT, é treinado em vários petabytes (vários milhões de gigabytes) de texto.



Os biólogos estão aproveitando a capacidade desses LLMs para lançar uma nova luz sobre a genética, identificando padrões estatísticos nas sequências de DNA. Os modelos de linguagem de DNA (também chamados de modelos de linguagem genômica ou de nucleotídeos) são treinados de forma semelhante em um grande número de sequências de DNA.

O DNA como “a linguagem da vida” é um clichê frequentemente repetido. Um genoma é todo o conjunto de sequências de DNA que compõem a receita genética de qualquer organismo. Ao contrário das línguas escritas, o DNA tem poucas letras: A, C, G e T (representando os compostos adenina, citosina, guanina e timina). Por mais simples que essa linguagem genômica possa parecer, estamos longe de desvendar sua sintaxe. Os modelos de linguagem do DNA podem melhorar nossa compreensão da gramática genômica, uma regra por vez.



Versatilidade preditiva

O que torna o ChatGPT incrivelmente poderoso é sua adaptabilidade a uma ampla gama de tarefas, desde a geração de poemas até a edição de texto de um ensaio. Os modelos de linguagem do DNA são versátil também. Suas aplicações vão desde prever o que diferentes partes do genoma fazem até prever como diferentes genes interagem uns com os outros. Ao aprender as características do genoma a partir de sequências de DNA, sem a necessidade de “genomas de referência”, os modelos de linguagem também poderiam abrir novos métodos de análise.

Um modelo treinado no genoma humano, por exemplo, foi capaz de prever locais no RNA onde as proteínas provavelmente se ligarão. Essa ligação é importante no processo de “expressão gênica” – a conversão do DNA em proteínas. Proteínas específicas se ligam ao RNA, limitando o quanto dele é posteriormente traduzido em proteínas. Desta forma, essas proteínas são ditas mediar expressão genetica. Para ser capaz de prever essas interações, o modelo precisava intuir não apenas onde no genoma essas interações ocorreriam, mas também como o RNA se dobraria, pois sua forma é crítica para essas interações.

As capacidades generativas dos modelos de linguagem do DNA também permitem que os pesquisadores prevejam como novas mutações podem surgir nas sequências do genoma. Por exemplo, os cientistas desenvolveram um modelo de linguagem em escala genômica para prever e reconstruir a evolução do vírus SARS-CoV-2.



Ação genômica à distância

Nos últimos anos, os biólogos perceberam que partes do genoma anteriormente chamadas de DNA lixo interagem com outras partes do genoma de maneiras surpreendentes. Os modelos de linguagem do DNA oferecem um atalho para aprender mais sobre essas interações ocultas. Com sua capacidade de identificar padrões em longas sequências de DNA, os modelos de linguagem também podem identificar interações entre genes localizados em partes distantes do genoma.

Em uma nova pré-impressão hospedada no bioRxiv, cientistas da Universidade da Califórnia-Berkeley apresentam um modelo de linguagem de DNA com a capacidade de aprender efeitos variantes em todo o genoma . Essas variantes são alterações de uma única letra no genoma que levam a doenças ou outros resultados fisiológicos e geralmente requerem experimentos caros (conhecidos como estudos de associação do genoma) para serem descobertos.

Chamada de Genomic Pre-trained Network (GPN), ela foi treinada nos genomas de sete espécies de plantas da família da mostarda. O GPN não apenas pode rotular corretamente as diferentes partes desses genomas de mostarda, mas também pode ser adaptado para identificar variantes do genoma para qualquer espécies.

Em outro estudo publicado na Inteligência da Máquina da Natureza , os cientistas desenvolveram um modelo de linguagem de DNA que poderia identificar interações gene-gene a partir de dados de célula única. Ser capaz de estudar como os genes interagem uns com os outros na resolução de uma única célula revelará novos insights sobre doenças que envolvem mecanismos complexos. Isso ocorre porque permite aos biólogos atribuir variações entre células individuais a fatores genéticos que levam ao desenvolvimento de doenças.



Alucinação se torna criatividade

Os modelos de linguagem podem ter problemas com “alucinação” em que uma saída soa sensata, mas não está enraizada na verdade. ChatGPT , por exemplo, poderia alucinar conselhos de saúde que são essencialmente desinformação. No entanto, para o design de proteínas, essa “criatividade” torna os modelos de linguagem uma ferramenta útil para projetando proteínas completamente novas a partir do zero .

Os cientistas também estão aplicando modelos de linguagem a conjuntos de dados de proteínas em um esforço para aproveitar o sucesso de modelos de aprendizado profundo como o AlphaFold na previsão de como as proteínas se dobram. A dobragem é um processo complexo que permite que uma proteína – que começa como uma cadeia de aminoácidos – adote uma forma funcional. Como as sequências de proteínas são derivadas de sequências de DNA, as últimas determinam como as primeiras se dobram, levantando a possibilidade de que possamos descobrir tudo sobre a estrutura e a função das proteínas apenas a partir das sequências de genes.

Enquanto isso, os biólogos continuarão a usar modelos de linguagem de DNA para extrair mais e melhores percepções das grandes quantidades de dados do genoma disponíveis para nós, em toda a gama e diversidade da vida na Terra.

Compartilhar:

Seu Horóscopo Para Amanhã

Idéias Frescas

Categoria

Outro

13-8

Cultura E Religião

Alquimista Cidade

Livros Gov-Civ-Guarda.pt

Gov-Civ-Guarda.pt Ao Vivo

Patrocinado Pela Fundação Charles Koch

Coronavírus

Ciência Surpreendente

Futuro Da Aprendizagem

Engrenagem

Mapas Estranhos

Patrocinadas

Patrocinado Pelo Institute For Humane Studies

Patrocinado Pela Intel The Nantucket Project

Patrocinado Pela Fundação John Templeton

Patrocinado Pela Kenzie Academy

Tecnologia E Inovação

Política E Atualidades

Mente E Cérebro

Notícias / Social

Patrocinado Pela Northwell Health

Parcerias

Sexo E Relacionamentos

Crescimento Pessoal

Podcasts Do Think Again

Vídeos

Patrocinado Por Sim. Cada Criança.

Geografia E Viagens

Filosofia E Religião

Entretenimento E Cultura Pop

Política, Lei E Governo

Ciência

Estilos De Vida E Questões Sociais

Tecnologia

Saúde E Medicina

Literatura

Artes Visuais

Lista

Desmistificado

História Do Mundo

Esportes E Recreação

Holofote

Companheiro

#wtfact

Pensadores Convidados

Saúde

O Presente

O Passado

Ciência Dura

O Futuro

Começa Com Um Estrondo

Alta Cultura

Neuropsicologia

Grande Pensamento+

Vida

Pensamento

Liderança

Habilidades Inteligentes

Arquivo Pessimistas

Começa com um estrondo

Grande Pensamento+

Neuropsicologia

Ciência dura

O futuro

Mapas estranhos

Habilidades Inteligentes

O passado

Pensamento

O poço

Saúde

Vida

Outro

Alta cultura

A Curva de Aprendizagem

Arquivo Pessimistas

O presente

Patrocinadas

A curva de aprendizado

Liderança

ciência difícil

De outros

Pensando

Arquivo dos Pessimistas

Negócios

Artes E Cultura

Recomendado