La inteligencia artificial (IA) ha resuelto uno de los grandes desafíos de la biología: predecir cómo las proteínas se curvan desde una cadena lineal de aminoácidos en formas 3D que les permiten llevar a cabo las tareas de la vida. Hoy, los principales biólogos estructurales y organizadores de una competencia bienal de plegamiento de proteínas anunciaron el logro de los investigadores de DeepMind, una empresa de inteligencia artificial con sede en el Reino Unido. Dicen que el método DeepMind tendrá efectos de gran alcance, entre ellos, acelerará drásticamente la creación de nuevos medicamentos.
“Lo que el equipo de DeepMind ha logrado es fantástico y cambiará el futuro de la biología estructural y la investigación de proteínas”, dice Janet Thornton, directora emérita del Instituto Europeo de Bioinformática. “Este es un problema de 50 años”, agrega John Moult, biólogo estructural de la Universidad de Maryland, Shady Grove, y cofundador de la competencia Critical Assessment of Protein Structure Prediction (CASP). “Nunca pensé que vería esto en mi vida”.
El cuerpo humano utiliza decenas de miles de proteínas diferentes, cada una de las cuales es una cadena de decenas a muchos cientos de aminoácidos. El orden de esos aminoácidos dicta cómo la miríada de empujes y tirones entre ellos da lugar a las complejas formas tridimensionales de las proteínas, que, a su vez, determinan cómo funcionan. Conocer esas formas ayuda a los investigadores a idear medicamentos que pueden alojarse en los bolsillos y grietas de las proteínas. Y ser capaz de sintetizar proteínas con una estructura deseada podría acelerar el desarrollo de enzimas que producen biocombustibles y degradan los residuos plásticos.
Durante décadas, los investigadores descifraron las estructuras 3D de las proteínas utilizando técnicas experimentales como la cristalografía de rayos X o la microscopía crioelectrónica (crio-EM). Pero estos métodos pueden llevar meses o años y no siempre funcionan. Se han resuelto las estructuras de solo unas 170.000 de las más de 200 millones de proteínas descubiertas en las formas de vida.
En la década de 1960, los investigadores se dieron cuenta de que si podían resolver todas las interacciones individuales dentro de la secuencia de una proteína, podrían predecir su forma 3D. Sin embargo, con cientos de aminoácidos por proteína y numerosas formas en que cada par de aminoácidos puede interactuar, el número de posibles estructuras por secuencia fue astronómico. Los científicos computacionales abordaron el problema, pero el progreso fue lento.
En 1994, Moult y sus colegas lanzaron CASP, que se lleva a cabo cada 2 años. Los participantes obtienen secuencias de aminoácidos de aproximadamente 100 proteínas cuyas estructuras no se conocen. Algunos grupos calculan una estructura para cada secuencia, mientras que otros grupos la determinan experimentalmente. Luego, los organizadores comparan las predicciones computacionales con los resultados del laboratorio y dan a las predicciones una puntuación de prueba de distancia global (GDT). Las puntuaciones superiores a 90 en la escala de cero a 100 se consideran a la par con los métodos experimentales, dice Moult.
Incluso en 1994, las estructuras predichas para proteínas pequeñas y simples podrían coincidir con los resultados experimentales. Pero para proteínas más grandes y desafiantes, los puntajes de GDT de los cálculos fueron de aproximadamente 20, “una completa catástrofe”, dice Andrei Lupas, juez de CASP y biólogo evolutivo del Instituto Max Planck de Biología del Desarrollo. Para 2016, los grupos competidores habían alcanzado puntuaciones de alrededor de 40 para las proteínas más duras, principalmente al extraer información de estructuras conocidas de proteínas que estaban estrechamente relacionadas con los objetivos de CASP.
Cuando DeepMind compitió por primera vez en 2018, su algoritmo, llamado AlphaFold, se basó en esta estrategia comparativa. Pero AlphaFold también incorporó un enfoque computacional llamado aprendizaje profundo, en el que el software se entrena en grandes cantidades de datos, en este caso, las secuencias, estructuras y proteínas conocidas, y aprende a detectar patrones. DeepMind ganó cómodamente, superando a la competencia en un promedio del 15% en cada estructura y obteniendo puntajes GDT de hasta aproximadamente 60 para los objetivos más difíciles.
Pero las predicciones aún eran demasiado burdas para ser útiles, dice John Jumper, quien dirige el desarrollo de AlphaFold en DeepMind. “Sabíamos lo lejos que estábamos de la relevancia biológica”. Para hacerlo mejor, Jumper y sus colegas combinaron el aprendizaje profundo con un “algoritmo de tensión” que imita la forma en que una persona podría armar un rompecabezas: primero conectando piezas en pequeños grupos, en este caso grupos de aminoácidos, y luego buscando formas de une los grupos en un todo más grande. Trabajando en una modesta red informática de 128 procesadores, entrenaron el algoritmo en las 170.000 estructuras proteicas conocidas.
Y funcionó. En todas las proteínas objetivo del CASP de este año, AlphaFold logró una puntuación mediana de GDT de 92,4. Para las proteínas más desafiantes, AlphaFold obtuvo una mediana de 87,25 puntos por encima de las siguientes mejores predicciones. Incluso se destacó en la resolución de estructuras de proteínas que se encuentran encajadas en las membranas celulares, que son fundamentales para muchas enfermedades humanas pero muy difíciles de resolver con cristalografía de rayos X. Venki Ramakrishnan, biólogo estructural del Laboratorio de Biología Molecular del Consejo de Investigación Médica, dice que el resultado es “un avance sorprendente en el problema del plegamiento de proteínas”.
Todos los grupos en la competencia de este año mejoraron, dice Moult. Pero con AlphaFold, Lupas dice, “El juego ha cambiado”. A los organizadores incluso les preocupaba que DeepMind pudiera haber estado haciendo trampa de alguna manera. Entonces, Lupas estableció un desafío especial: una proteína de membrana de una especie de arqueas, un antiguo grupo de microbios. Durante 10 años, su equipo de investigación probó todos los trucos del libro para obtener una estructura cristalina de rayos X de la proteína. “No pudimos resolverlo”.
Pero AlphaFold no tuvo problemas. Devolvió una imagen detallada de una proteína de tres partes con dos largos brazos helicoidales en el medio. El modelo permitió a Lupas y sus colegas dar sentido a sus datos de rayos X; en media hora, habían ajustado sus resultados experimentales a la estructura prevista de AlphaFold. “Es casi perfecto”, dice Lupas. “No podrían haber hecho trampa en esto. No sé cómo lo hacen”.
Como condición para ingresar a CASP, DeepMind, como todos los grupos, acordó revelar suficientes detalles sobre su método para que otros grupos lo recrearan. Eso será una bendición para los experimentadores, que podrán utilizar predicciones de estructura precisas para dar sentido a los datos opacos de rayos X y crio-EM. También podría permitir a los diseñadores de medicamentos resolver rápidamente la estructura de cada proteína en patógenos nuevos y peligrosos como el SARS-CoV-2, un paso clave en la búsqueda de moléculas para bloquearlos, dice Moult.
Aún así, AlphaFold aún no lo hace todo bien. En el concurso, vaciló notablemente en una proteína, una amalgama de 52 pequeños segmentos repetidos, que distorsionan las posiciones de los demás a medida que se ensamblan. Jumper dice que el equipo ahora quiere entrenar a AlphaFold para resolver tales estructuras, así como las de complejos de proteínas que trabajan juntas para llevar a cabo funciones clave en la célula.
Aunque haya caído un gran desafío, sin duda surgirán otros. “Este no es el final de algo”, dice Thornton. “Es el comienzo de muchas cosas nuevas”.
Este artículo es una traducción de otro publicado en Science. Puedes leer el texto original haciendo clic aquí.