Un modelo de inteligencia artificial (IA) ha simulado 500 millones de años de evolución molecular para crear el código de una proteína previamente desconocida, según un nuevo estudio. La proteína brillante, que es similar a las que se encuentran en las medusas y los corales, puede ayudar en el desarrollo de nuevos medicamentos, dicen los investigadores.
Las proteínas son uno de los componentes básicos de la vida y realizan varias funciones en el cuerpo, como desarrollar músculos y combatir enfermedades. La proteína simulada, llamada esmGFP, solo existe como código informático, pero contiene el modelo para un tipo previamente desconocido de proteína fluorescente verde. En la naturaleza, las proteínas fluorescentes verdes dan a las medusas y corales fluorescentes su brillo.
La secuencia de letras que deletrean las instrucciones para hacer esmGFP es solo un 58% similar a la proteína fluorescente conocida más cercana, que es una versión modificada por humanos de una proteína que se encuentra en las anémonas de mar con punta de burbuja (Entacmaea quadricolor), criaturas marinas coloridas que parecen tener burbujas en los extremos de sus tentáculos. El resto de la secuencia es única y requeriría un total de 96 mutaciones genéticas diferentes para evolucionar. Estos cambios habrían tardado más de 500 millones de años en evolucionar de forma natural, según el estudio.
Los investigadores de una empresa llamada EvolutionaryScale dieron a conocer esmGFP y el modelo de IA utilizado para crearlo, ESM3, en un estudio de preimpresión el año pasado. Científicos independientes han revisado ahora esos hallazgos, que se publicaron el 16 de enero en la revista Science.
ESM3 no diseña proteínas dentro de las limitaciones habituales de la evolución. En cambio, es un solucionador de problemas que llena los vacíos del código proteico incompleto proporcionado por los investigadores y, al hacerlo, diseña algo que podría existir en función de todas las posibles vías que podría tomar la evolución.
“Hemos descubierto que ESM3 aprende biología fundamental y puede generar proteínas funcionales fuera del espacio explorado por la evolución”, dijo a Live Science en un correo electrónico el coautor del estudio Alex Rives, cofundador y científico jefe de EvolutionaryScale.
El nuevo estudio se basa en la investigación que Rives y sus colegas comenzaron en Meta, la empresa matriz de Facebook e Instagram, antes de iniciar EvolutionaryScale en 2024. ESM3 es su última versión de un modelo de lenguaje generativo similar al GPT-4 de OpenAI, que ejecuta ChatGPT, pero se basa en la biología.
Las proteínas están formadas por cadenas de moléculas llamadas aminoácidos, cuya secuencia es proporcionada por los genes. Diferentes proteínas tienen diferentes secuencias de aminoácidos. También difieren estructuralmente, cada una se pliega en una forma única que les permite llevar a cabo su función, según Nature Education. Para que ESM3 comprenda las proteínas, los investigadores alimentaron el modelo con datos sobre las principales propiedades de una proteína (secuencia de aminoácidos, estructura y función) como una serie de letras.
El equipo entrenó a ESM3 con datos de 2.78 mil millones de proteínas encontradas en la naturaleza. Luego, los investigadores ocultaron aleatoriamente partes de un plano de proteína e hicieron que ESM3 llenara los espacios vacíos para completar el código en función de lo que había aprendido.
“De la misma manera que una persona puede completar los espacios en blanco en el soliloquio ‘to _ or not to , es decir el ‘, podemos entrenar un modelo de lenguaje para que complete los espacios en blanco en las proteínas”, dijo Rives. “Nuestra investigación ha demostrado que al resolver esta tarea simple, la información sobre la estructura profunda de la biología de las proteínas emerge en la red”.
Los científicos ya modifican proteínas naturales y diseñan otras nuevas para una variedad de propósitos. Por ejemplo, las proteínas fluorescentes verdes se utilizan ampliamente en los laboratorios de investigación. Su código genético a menudo se agrega a los extremos de otras secuencias de ADN para convertir en verdes las proteínas que codifican. Esto permite a los científicos rastrear fácilmente las proteínas y los procesos celulares. Rives señaló que las capacidades de ESM3 pueden acelerar una amplia gama de aplicaciones para la ingeniería de proteínas, incluida la ayuda para diseñar nuevos medicamentos.
Tiffany Taylor, bióloga evolutiva de la Universidad de Bath en el Reino Unido que no participó en la investigación, informó sobre la versión preliminar del estudio para Live Science en 2024. En su análisis, Taylor escribió que los modelos de IA como ESM3 permitirán innovaciones en ingeniería de proteínas que la evolución no puede. Sin embargo, también señaló que la afirmación de los investigadores de simular 500 millones de años de evolución se centra solo en proteínas individuales y no tiene en cuenta las muchas etapas de la selección natural que finalmente crean la vida.
“La ingeniería de proteínas impulsada por IA es intrigante, pero no puedo evitar la sensación de que tal vez confiemos demasiado en suponer que podemos ser más astutos que los intrincados procesos perfeccionados por millones de años de selección natural”, dijo Taylor.
Fuente: Live Science.