Por: Libusha Kelly
Los virus son una fuerza misteriosa y poco comprendida en los ecosistemas microbianos. Los investigadores saben que pueden infectar, matar y manipular células humanas y bacterianas en casi todos los entornos, desde los océanos hasta el intestino.
Pero los científicos aún no tienen una idea completa de cómo los virus afectan el entorno que los rodea, en gran parte debido a su extraordinaria diversidad y capacidad para evolucionar rápidamente. Las comunidades de microbios son difíciles de estudiar en un laboratorio. Muchos microbios son difíciles de cultivar y su entorno natural tiene muchas más características que influyen en su éxito o fracaso de las que los científicos pueden replicar en un laboratorio.
Por eso, los biólogos de sistemas como yo a menudo secuencian todo el ADN presente en una muestra (por ejemplo, una muestra fecal de un paciente), separan las secuencias de ADN viral y luego anotan las secciones del genoma viral que codifican proteínas. Estas notas sobre la ubicación, estructura y otras características de los genes ayudan a los investigadores a comprender las funciones que los virus pueden desempeñar en el medio ambiente y ayudan a identificar diferentes tipos de virus. Los investigadores anotan virus haciendo coincidir secuencias virales en una muestra con secuencias previamente anotadas disponibles en bases de datos públicas de secuencias genéticas virales.
Sin embargo, los científicos están identificando secuencias virales en el ADN recolectado del medio ambiente a un ritmo que supera con creces nuestra capacidad para anotar esos genes. Esto significa que los investigadores están publicando hallazgos sobre virus en ecosistemas microbianos utilizando fracciones inaceptablemente pequeñas de los datos disponibles. Para mejorar la capacidad de los investigadores para estudiar virus en todo el mundo, mi equipo y yo hemos desarrollado un enfoque novedoso para anotar secuencias virales utilizando inteligencia artificial.
A través de modelos de lenguaje de proteínas similares a modelos de lenguaje grandes como ChatGPT pero específicos de proteínas, pudimos clasificar secuencias virales nunca antes vistas. Esto abre la puerta para que los investigadores no sólo aprendan más sobre los virus, sino también para abordar cuestiones biológicas que son difíciles de responder con las técnicas actuales.
Anotar virus con IA
Los modelos de lenguaje grande utilizan relaciones entre palabras en grandes conjuntos de datos de texto para proporcionar respuestas potenciales a preguntas cuyas respuestas no se les “enseña” explícitamente.
Cuando le preguntas a un chatbot “¿Cuál es la capital de Francia?” por ejemplo, el modelo no busca la respuesta en una tabla de ciudades capitales. Más bien, está utilizando su formación en enormes conjuntos de datos de documentos e información para inferir la respuesta: “La capital de Francia es París”.
De manera similar, los modelos de lenguaje de proteínas son algoritmos de inteligencia artificial entrenados para reconocer relaciones entre miles de millones de secuencias de proteínas de entornos de todo el mundo. A través de este entrenamiento, es posible que puedan inferir algo sobre la esencia de las proteínas virales y sus funciones.
Nos preguntamos si los modelos de lenguaje de proteínas podrían responder a esta pregunta: “Dadas todas las secuencias genéticas virales anotadas, ¿cuál es la función de esta nueva secuencia?”
En nuestra prueba de concepto, entrenamos redes neuronales en secuencias de proteínas virales previamente anotadas en modelos de lenguaje de proteínas previamente entrenados y luego las usamos para predecir la anotación de nuevas secuencias de proteínas virales. Nuestro enfoque nos permite investigar lo que el modelo “ve” en una secuencia viral particular que conduce a una anotación particular. Esto ayuda a identificar proteínas candidatas de interés, ya sea en función de sus funciones específicas o de cómo está organizado su genoma, reduciendo el espacio de búsqueda de vastos conjuntos de datos.
Al identificar funciones genéticas virales relacionadas más lejanamente, los modelos de lenguaje de proteínas pueden complementar los métodos actuales para proporcionar nuevos conocimientos sobre microbiología. Por ejemplo, mi equipo y yo pudimos utilizar nuestro modelo para descubrir una integrasa no reconocida previamente (un tipo de proteína que puede mover información genética dentro y fuera de las células) en las picocianobacterias marinas Proclorococcus y Synechococcus, que abundan en todo el mundo.
En particular, esta integrasa puede ser capaz de mover genes dentro y fuera de estas poblaciones de bacterias en los océanos y permitir que estos microbios se adapten mejor a entornos cambiantes. Nuestro modelo de lenguaje también identificó una nueva proteína de la cápside viral que está muy extendida en los océanos del mundo. Produjimos la primera imagen de cómo están organizados sus genes, mostrando que puede contener diferentes conjuntos de genes que creemos que indican que este virus cumple diferentes funciones en su entorno. Estos hallazgos preliminares representan sólo dos de los miles de anotaciones que nuestro enfoque ha proporcionado.
Analizando lo desconocido
La mayoría de los cientos de miles de virus recién descubiertos siguen sin clasificar. Muchas secuencias genéticas virales coinciden con familias de proteínas sin función conocida o nunca antes se habían visto. Nuestro trabajo muestra que modelos de lenguaje de proteínas similares podrían ayudar a estudiar la amenaza y la promesa de los numerosos virus no caracterizados de nuestro planeta.
Si bien nuestro estudio se centró en los virus en los océanos globales, una mejor anotación de las proteínas virales es fundamental para comprender mejor el papel que desempeñan los virus en la salud y las enfermedades del cuerpo humano. Nosotros y otros investigadores hemos planteado la hipótesis de que la actividad viral en el microbioma intestinal humano podría verse alterada cuando estás enfermo. Esto significa que los virus pueden ayudar a identificar el estrés en las comunidades microbianas.
Sin embargo, nuestro enfoque también es limitado porque requiere anotaciones de alta calidad. Los investigadores están desarrollando modelos de lenguaje de proteínas más nuevos que incorporan otras “tareas” como parte de su entrenamiento, en particular predecir estructuras de proteínas para detectar proteínas similares, para hacerlas más poderosas. Hacer que todas las herramientas de IA estén disponibles a través de los principios de datos FAIR (datos que se pueden encontrar, acceder, interoperar y reutilizar) puede ayudar a los investigadores en general a darse cuenta del potencial de estas nuevas formas de anotar secuencias de proteínas que conducen a descubrimientos que benefician la salud humana.
Este artículo es una traducción de otro publicado en The Conversation. Puedes leer el texto original haciendo clic aquí.