Cuando los científicos declararon que el Proyecto Genoma Humano estaba completo hace dos décadas, su anuncio fue un poco prematuro. Sin duda, se había alcanzado un hito, ya que investigadores de todo el mundo obtuvieron acceso a la secuencia de ADN de la mayoría de los genes que codifican proteínas en el genoma humano. Pero incluso después de 20 años de actualizaciones, el 8% de nuestro genoma seguía sin secuenciar ni estudiar. Criticado por algunos como “ADN basura” sin una función clara, aproximadamente 151 millones de pares de bases de datos de secuencia dispersos por todo el genoma seguían siendo una caja negra.
Ahora, un gran equipo internacional dirigido por Adam Phillippy en los Institutos Nacionales de Salud ha revelado el ocho por ciento final del genoma humano en un artículo publicado en Science. Estas piezas desaparecidas de nuestro genoma contienen más que mera basura. Dentro de los nuevos datos hay misteriosos bolsillos de ADN no codificante que no producen proteínas, pero que aún juegan un papel crucial en muchas funciones celulares y pueden estar en el corazón de las condiciones en las que la división celular se vuelve loca, como el cáncer.
“Uno pensaría que, con el 92% del genoma completado hace mucho tiempo, otro ocho por ciento no contribuiría mucho”, dice Erich D. Jarvis de Rockefeller, coautor del estudio que ayudó a desarrollar una serie de técnicas fundamentales para desbloquear el último piezas del genoma humano. “Pero a partir de ese ocho por ciento faltante, ahora estamos obteniendo una comprensión completamente nueva de cómo se dividen las células, lo que nos permite estudiar una serie de enfermedades que no habíamos podido resolver antes”.
A hombros del HGP
El Proyecto del Genoma Humano esencialmente nos entregó las claves de la eucromatina, la mayor parte del genoma humano, que es rico en genes, está poco empaquetado y está ocupado produciendo ARN que luego se traducirá en proteínas. Sin embargo, quedó intacto un laberinto de heterocromatina repetitiva y estrechamente enrollada, una porción más pequeña del genoma, que no produce proteínas.
Los científicos tenían buenas razones para inicialmente quitarle prioridad a la heterocromatina. Las regiones eucromáticas contenían más genes y eran más sencillas de secuenciar. Así como un rompecabezas con piezas distintas es más fácil de armar que un rompecabezas compuesto por piezas similares, las herramientas genómicas de la época encontraron que el ADN eucromático era más fácil de analizar que su primo heterocromático repetitivo.
Como resultado, los genetistas se quedaron con un gran vacío en su conocimiento de lo que impulsa algunas funciones celulares básicas. Las secuencias heterocromáticas detrás de los centrómeros, que se encuentran en los puntos cruciales de los cromosomas y conducen la división celular, se marcaron todas con series largas de N para “base desconocida” en el genoma de referencia humano. También se omitieron las secuencias de los brazos cortos de los cromosomas 13, 14, 15, 21 y 22. “Ni siquiera todo el genoma eucromático se secuenció correctamente”, agrega Jarvis. “Los errores, como las duplicaciones falsas, debían corregirse”.
Luego, hace unos diez años, los científicos comenzaron a desarrollar nuevas técnicas para producir lecturas de secuencias más largas que llenaban los vacíos en los genomas de humanos y otras especies. Una de esas iniciativas es el Vertebrate Genomes Project, dirigido por Jarvis, que recientemente produjo los primeros genomas de referencia casi completos y casi sin errores para 25 animales. “Ese estudio fue parte de un esfuerzo internacional para desarrollar nuevas herramientas que produzcan ensamblajes de genes de la más alta calidad”, dice. “En comparación con los métodos que se usaban hace veinte años, la genómica moderna tiene lecturas largas de alta fidelidad con una precisión del 99,9 %, mejores herramientas de ensamblaje del genoma y algoritmos más potentes que distinguen mejor las piezas de un rompecabezas de aspecto similar”.
Con herramientas actualizadas y una determinación renovada, Jarvis y otros científicos pudieron ayudar a terminar lo que comenzó el Proyecto del Genoma Humano y describir, por fin, un genoma humano verdaderamente completo: sus regiones eucromáticas revisadas y sus regiones heterocromáticas en exhibición completa.
“Es un gran problema”, dice Jarvis. “Cada par de bases de un genoma humano ahora está completo”.
Conociendo a Merfín
El estudio insignia de Science fue dirigido por el Consorcio Telómero a Telómero (T2T), un grupo de investigadores de varias instituciones académicas y NIH. La contribución del laboratorio de Jarvis, publicada en Nature Methods, implicó proporcionar herramientas para ayudar a T2T a refinar secuencias desordenadas del genoma para producir secuencias sin errores.
Una de estas herramientas es Merfin, que utilizaron para limpiar algunas de las secuencias más difíciles del genoma humano. “Los genomas que generamos en el laboratorio pueden tener muchos errores”, dice Giulio Formenti, un postdoctorado en el laboratorio de Jarvis que desarrolló Merfin. “Si solo uno o unos pocos pares de bases son incorrectos, eso puede tener grandes consecuencias para la precisión general de la secuencia genómica”. Merfin hace posible probar la precisión de una secuencia, detectando el código que puede estar fuera de lugar y corrigiendo automáticamente los errores. Debido a que las tecnologías que generan secuencias modernas son más precisas, Merfin se reserva solo para los casos más complicados.
“Los tramos de pares de bases idénticos, como AAA, son difíciles de evaluar para la tecnología existente”, dice Formenti. “A menudo hay errores en esas secuencias, incluso ahora. Merfin los corrige”.
Jarvis y Formenti esperan que su contribución no solo ayude al Proyecto del Genoma Humano, sino que también sirva de base para la investigación de enfermedades relacionadas con el genoma heterocromático, entre ellas el cáncer, que está asociado con anomalías del centrómero. Las células cancerosas se dividen salvajemente cuando se sobreexpresan ciertos genes heterocromáticos del centrómero, y una comprensión completa del genoma del centrómero puede abrir la puerta a nuevas terapias.
“Finalmente estamos investigando lo que una vez llamamos ADN basura, porque no podíamos entenderlo o mirarlo con precisión”, dice Formenti. “Ahora sabemos que muchas enfermedades están vinculadas a repeticiones estructurales en el centrómero y, ahora que estas secuencias ya no faltan en el genoma humano de referencia, podemos comenzar a mapear los orígenes de estas enfermedades”.
Otros coautores del estudio de Merfin son: Arang Rhie, Brian P. Walenz, Françoise Thibaud-Nissen, Kishwar Shafin, Sergey Koren, Eugene W. Myers y Adam M. Phillippy.
Fuente: Phys.org.