Los científicos de Meta, la empresa matriz de Facebook e Instagram, han utilizado un modelo de lenguaje de inteligencia artificial (IA) para predecir las estructuras desconocidas de más de 600 millones de proteínas pertenecientes a virus, bacterias y otros microbios. El programa, llamado ESMFold, usó un modelo que fue originalmente diseñado para decodificar lenguajes humanos para hacer predicciones precisas de los giros y vueltas que toman las proteínas que determinan su estructura 3D. Las predicciones, que se compilaron en el Atlas Metagenómico ESM de código abierto, podrían usarse para ayudar a desarrollar nuevos medicamentos, caracterizar funciones microbianas desconocidas y rastrear las conexiones evolutivas entre especies lejanamente relacionadas.
ESMFold no es el primer programa que realiza predicciones de proteínas. En 2022, la empresa DeepMind, propiedad de Google, anunció que su programa de predicción de proteínas AlphaFold había descifrado las formas de aproximadamente 200 millones de proteínas conocidas por la ciencia. ESMFold no es tan preciso como AlphaFold, pero es 60 veces más rápido que el programa de DeepMind, dice Meta. Los resultados aún no han sido revisados por pares.
“El Atlas metagenómico de ESM permitirá a los científicos buscar y analizar las estructuras de las proteínas metagenómicas a la escala de cientos de millones de proteínas”, escribió el equipo de investigación de Meta en una publicación de blog que acompaña al lanzamiento del artículo en la base de datos de preimpresión bioRxiv. “Esto puede ayudar a los investigadores a identificar estructuras que no se han caracterizado antes, buscar relaciones evolutivas distantes y descubrir nuevas proteínas que pueden ser útiles en medicina y otras aplicaciones”.
Las proteínas son los componentes básicos de todos los seres vivos y están formadas por cadenas largas y sinuosas de aminoácidos, pequeñas unidades moleculares que se unen en innumerables combinaciones para formar la forma 3D de la proteína. Conocer la forma de una proteína es la mejor manera de entender su función, pero hay un número asombroso de formas en que la misma combinación de aminoácidos en diferentes secuencias puede tomar forma. A pesar de que las proteínas toman ciertas formas de manera rápida y confiable una vez que se han producido, la cantidad de configuraciones posibles es aproximadamente 10^300. La forma estándar de oro para determinar la estructura de una proteína es usar cristalografía de rayos X (ver cómo los haces de luz de alta energía se difractan alrededor de las proteínas), pero este es un método laborioso que puede llevar meses o años para producir resultados, y no funciona para todo tipo de proteínas. Después de décadas de trabajo, se han descifrado más de 100 000 estructuras de proteínas mediante cristalografía de rayos X. Para encontrar una forma de solucionar este problema, los investigadores de Meta recurrieron a un modelo informático sofisticado diseñado para decodificar y hacer predicciones sobre los lenguajes humanos, y aplicaron el modelo al lenguaje de las secuencias de proteínas.
“Usando una forma de aprendizaje autosupervisado conocida como modelado de lenguaje enmascarado, entrenamos un modelo de lenguaje en las secuencias de millones de proteínas naturales”, escribieron los investigadores. “Con este enfoque, el modelo debe completar correctamente los espacios en blanco en un pasaje de texto, como ‘Para __ o no , ese es el’. Entrenamos un modelo de lenguaje para completar los espacios en blanco en una secuencia de proteínas, como “GL_KKE_AHY_G” en millones de proteínas diversas. Descubrimos que la información sobre la estructura y función de las proteínas surge de este entrenamiento”.
Para probar su modelo, los científicos recurrieron a una base de datos de ADN metagenómico (llamado así porque ha sido secuenciado en masa a partir de fuentes ambientales o clínicas) tomado de lugares tan diversos como el suelo, el agua de mar y el intestino y la piel humanos. Al introducir los datos de ADN en el programa ESMFold, los investigadores predijeron las estructuras de más de 617 millones de proteínas en solo dos semanas.
Eso es más de 400 millones más de lo que AlphaFold anunció que había descifrado hace cuatro meses, cuando afirmó haber deducido la estructura proteica de casi todas las proteínas conocidas. Esto significa que muchas de estas proteínas nunca antes se habían visto, probablemente porque provienen de organismos desconocidos. Se cree que más de 200 millones de predicciones de proteínas de ESMFold son de alta calidad, según el modelo, lo que significa que el programa ha sido capaz de predecir las formas con una precisión hasta el nivel de los átomos.
Los investigadores esperan utilizar este programa para un trabajo más centrado en las proteínas. “Para ampliar aún más este trabajo, estamos estudiando cómo se pueden usar los modelos de lenguaje para diseñar nuevas proteínas y contribuir a resolver los desafíos en la salud, la enfermedad y el medio ambiente”, escribió Meta.
Fuente: Live Science.