Redatora de saúde e bem-estar, autora de reportagens sobre alimentação, família e estilo de vida.
Usando um modelo generativo de linguagem baseado em IA, chamado ESM3 (Evolutionary Scale Model 3), a empresa norte-americana Evolutionary Scale conseguiu criar uma proteína fluorescente que não existe na natureza. Esse é um marco importante para a ciência, já que a molécula conseguiu simular o equivalente a 500 milhões de anos de evolução natural.
A criação, chamada esmGFP, pertence a uma “família” conhecida como proteínas fluorescentes verdes (Green Fluorescent Protein, ou GFP, na sigla em inglês). As GFPs podem ser encontradas em certos organismos, como algumas espécies de águas-vivas. Aliás, a descoberta dessas proteínas rendeu o Prêmio Nobel de Química em 2008.
Uma proteína singular
Apesar de compartilhar parte de sua estrutura com as proteínas fluorescentes naturais, a esmGFP não é uma cópia delas. Trata-se de uma molécula com um design geral diferente. O mais interessante é que essa diferença não é aleatória — a proteína foi projetada pelo ESM3 como se fosse o resultado de um processo evolutivo natural que simplesmente seguiu um caminho distinto das demais.
A equipe da Evolutionary Scale afirma que as diferenças entre a esmGFP e suas “parentes” naturais equivalem a 500 milhões de anos de evolução. Segundo o modelo ESM3, as características da proteína são biologicamente plausíveis — como se a natureza tivesse escolhido esse caminho alternativo em vez do que realmente seguiu. Os resultados foram publicados em um artigo na revista Science.
A IA que escreve proteínas
O Evolutionary Scale Model 3 é um modelo de linguagem que não gera texto. Na verdade, essa IA foi treinada especificamente para trabalhar com proteínas. O ESM3 tem como objetivo prever a sequência, a estrutura tridimensional e a função de moléculas — inclusive daquelas que ainda não são conhecidas.
Para isso, a equipe treinou o modelo com dados de 3,15 bilhões de sequências de proteínas, 236 milhões de estruturas moleculares e 539 milhões de funções associadas. Ao todo, o modelo processou 771 bilhões de blocos de informação. Graças a esse volume de dados, o ESM3 é capaz de entender como os aminoácidos se organizam, como se dobram e quais funções podem desempenhar em diferentes contextos.
Esse nível de precisão representa um avanço significativo em relação aos modelos anteriores, que consideravam apenas a sequência de aminoácidos. No universo das proteínas, a forma é tão importante quanto o conteúdo — uma pequena variação no dobramento pode mudar completamente a função de uma molécula.
Mais do que ficção científica
Desenvolver proteínas que poderiam ter existido permite aos cientistas explorar realidades alternativas, em que a evolução seguiu caminhos diferentes. Mas isso também pode gerar resultados práticos, como aplicações na medicina — por exemplo, com o desenvolvimento de proteínas com funções semelhantes às que nosso corpo produz naturalmente para combater certos distúrbios.
Quanto ao ESM3, o site da Evolutionary Scale informa que todos os modelos estão disponíveis em uma versão beta fechada chamada Forge. Essa plataforma permite que cientistas projetem proteínas tanto por programação quanto por meio de aplicações interativas via navegador. Os pesquisadores podem acessar a API de forma gratuita para fins acadêmicos ou por meio do AWS SageMaker.