nature.com ha 6 dias MD Sandbox

Dê espaço, AlphaFold: modelo de código aberto prevê forma de 1 bilhão de proteínas

Paper Tecnologia AI Genômica

Conteudo

TLDR;

É um atlas lançado pelo Biohub criado com o modelo aberto ESMFold2 que prevê 1,1 bilhão de estruturas e contém sequências de 6,8 bilhões de proteínas, muitas metagenômicas, e será disponibilizado gratuitamente. De acordo com os autores e um preprint, o ESMFold2 supera o AlphaFold3 em várias métricas, sobretudo na predição de complexos proteicos e na modelagem de anticorpos ligados a seus antígenos. A ferramenta já foi usada para projetar anticorpos e outras proteínas que funcionaram em testes laboratoriais e o atlas deve acelerar a descoberta de nova biologia ao conectar partes pouco caracterizadas do universo proteico.

Abstract

O universo conhecido de proteínas expandiu-se dramaticamente com o lançamento do ESM Atlas pelo Biohub, uma iniciativa ligada à Chan Zuckerberg Initiative: um banco aberto que contém 1,1 bilhão de estruturas preditas e 6,8 bilhões de sequências, principalmente metagenômicas antes pouco caracterizadas. As previsões foram geradas pelo modelo aberto ESMFold2, derivado de um modelo de “linguagem” proteica treinado em bilhões de sequências, e que, segundo os autores, supera o AlphaFold3 e outros métodos na modelagem de complexos de proteínas — incluindo anticorpos ligados a antígenos. A equipe liderada por Alex Rives descreve em preprint como usou a ferramenta para projetar novos anticorpos e ligantes contra alvos envolvidos em câncer e imunidade, muitos dos quais funcionaram em testes laboratoriais. O atlas amplia em mais de 800 milhões entradas o banco AlphaFold e soma cerca de 300 milhões a mais que a versão anterior do ESM Atlas, oferecendo um repositório gratuito para conectar regiões conhecidas e desconhecidas da biologia proteica; um exemplo foi a identificação de semelhanças estruturais entre proteínas CRISPR microbianas e uma proteína de edição gênica de fungo do solo. O lançamento ocorre num cenário competitivo de modelos proprietários e open source. Pesquisadores elogiam a abertura dos dados e possibilidades.

Metodologia

Segue um resumo conciso da metodologia descrita no estudo/reportagem sobre o ESM Atlas / ESMFold2 (Candido et al., preprint 2026):

  • Fonte de dados
  • Treinamento e predições usaram centenas de milhões a bilhões de sequências proteicas, incluindo grande volume de sequências metagenômicas (solo, oceano, ambientes diversos) que não estão presentes no banco AlphaFold.
  • O atlas final contém ~1,1 bilhões de estruturas preditas e informações de ~6,8 bilhões de sequências.

  • Modelo e abordagem

  • Baseia‑se numa “protein language model” desenvolvida anteriormente pela equipa (modelo de linguagem para proteínas treinado em bilhões de sequências).
  • ESMFold2 usa as representações aprendidas por esse modelo de linguagem para prever estruturas de proteínas — abordagem que dispensa (ou reduz fortemente) o uso de múltiplos alinhamentos de sequência (MSAs) típicos de alguns métodos anteriores.
  • O modelo foi optimizado para prever tanto estruturas monoméricas como complexos de proteínas (incluindo interações anticorpo‑antígeno).

  • Geração do atlas

  • Aplicaram ESMFold2 em vastos conjuntos de sequências (particularmente metagenômicas) para produzir a base de dados pública de estruturas e anotações associadas.
  • As predições foram armazenadas e disponibilizadas abertamente para pesquisa.

  • Validação e benchmarking

  • Compararam o desempenho de ESMFold2 com outros métodos de ponta (incluindo AlphaFold3) em conjuntos de referência; reportam melhor desempenho em previsão de complexos/interações.
  • Realizaram testes de predição de anticorpos e de interações proteína‑proteína para avaliar precisão estrutural e capacidade de modelar complexos.

  • Design e validação experimental

  • Utilizaram o modelo para desenhar novos anticorpos e outros ligantes que visam proteínas implicadas em cancro e doenças imunológicas.
  • Selecionaram desenhos in silico, sintetizaram-nos em laboratório e testaram a atividade/ligação experimentalmente; uma fração elevada dos desenhos mostrou funcionamento conforme previsto (reportado como sucesso experimental substancial).

  • Divulgação e utilidade

  • ESMFold2 e o atlas foram divulgados como open‑source/abertos, com o objetivo de facilitar descoberta biológica, identificar relações estruturais inesperadas (ex.: similaridades entre proteínas CRISPR e outras proteínas) e suportar desenho de proteínas.

Observação: este resumo baseia‑se na notícia e no preprint referido; para detalhes técnicos completos (arquitectura exacta do modelo, hiperparâmetros, conjuntos de benchmark usados, métricas quantitativas e taxas de sucesso experimental) recomendo consultar o preprint de Candido et al. (2026). Deseja que eu recupere e resuma esses detalhes técnicos do preprint?

Conclusoes

Aqui vai um resumo objetivo das principais conclusões e contribuições do trabalho (baseado na reportagem sobre o ESM Atlas / ESMFold2):

Principais conclusões
- Foi gerado um atlas com ~1,1 bilhão de estruturas previstas e informações sobre ~6,8 bilhões de sequências — ampliando fortemente o “universo de proteínas” conhecido.
- O modelo ESMFold2 (baseado em um grande modelo de linguagem para proteínas treinado em bilhões de sequências, incluindo metagenômicas) apresenta desempenho competitivo e, segundo os autores, supera métodos atuais (incluindo AlphaFold3) em predição de complexos de proteínas, especialmente interações anticorpo‑antígeno.
- Projetos computacionais feitos com ESMFold2 (por exemplo, desenhar anticorpos e ligantes para proteínas de interesse médico) produziram muitas variantes que funcionaram quando testadas experimentalmente.

Principais contribuições
- Escala: disponibilização de um repositório publico massivo (>1B estruturas) que cobre sequências metagenômicas pouco caracterizadas.
- Método: avanço/validação de uma arquitetura “protein language” (ESM) e da versão ESMFold2 capaz de predizer estruturas de monômeros e complexos com boa acurácia.
- Abertura: ESMFold2 é completamente open source, o que facilita uso, auditoria e extensão por toda a comunidade.
- Aplicação prática: demonstrações de desenho de proteínas/anticorpos com validação laboratorial, mostrando utilidade direta para descoberta biomédica.

Limitações e pontos de cautela
- Resultados baseiam‑se em preprint (e na reportagem); ainda carecem da revisão formal por pares e de avaliações independentes extensivas.
- Qualidade das previsões varia por família/propriedade; muitas estruturas, especialmente de sequências muito divergentes, precisarão de validação experimental.
- Campo competitivo e em rápida evolução (vários modelos proprietários e open source) — reivindicações de superioridade precisam ser comparadas em benchmarks independentes.
- Questões de bioética/biosecuridade: capacidade ampliada de projetar proteínas/ligantes levanta necessidades de governança e uso responsável.

Impacto esperado / aplicações
- Ferramenta de descoberta: permite encontrar novas dobras, inferir funções e priorizar alvos para biologia estrutural experimental.
- Biotecnologia e fármacos: acelera desenho racional de anticorpos, ligantes e enzimas candidatos.
- Microbioma/metagenômica: facilita a caracterização estrutural de proteínas de ambientes naturais antes inacessíveis.
- Recurso comunitário: atlas open‑access deve democratizar análises e acelerar pesquisas básicas e translacionais.

Se quiser, eu monto um resumo ainda mais curto (uma frase) para uso em apresentação, ou preparo uma tabela comparativa com AlphaFold (forças/faças) e com outros modelos open‑source. Qual formato prefere?