"Pudimos utilizar este poderoso enfoque de genómica comparativa para firmas evolutivas”
A principios de 2020, unos meses después de que comenzara la pandemia Covid-19, los científicos pudieron secuenciar el genoma completo del virus que causa la infección, SARS-CoV-2. Si bien muchos de sus genes ya se conocían en ese momento, el complemento completo de genes que codifican proteínas estaba sin resolver.
Ahora, después de realizar un extenso estudio de genómica comparativa, los investigadores del MIT han generado lo que describen como la anotación genética más precisa y completa del genoma del SARS-CoV-2. En su estudio, que aparece hoy en Nature Communications , confirmaron varios genes que codifican proteínas y descubrieron que algunos otros que se habían sugerido como genes no codifican ninguna proteína.
"Pudimos utilizar este poderoso enfoque de genómica comparativa para firmas evolutivas para descubrir el verdadero contenido funcional de codificación de proteínas de este genoma enormemente importante", dice Manolis Kellis, autor principal del estudio y profesor de informática en el MIT. Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), así como miembro del Broad Institute of MIT y Harvard.
El equipo de investigación también analizó casi 2.000 mutaciones que han surgido en diferentes aislados de SARS-CoV-2 desde que comenzó a infectar a los humanos, lo que les permitió evaluar la importancia que esas mutaciones pueden tener para cambiar la capacidad del virus para evadir el sistema inmunológico o volverse más infeccioso. .
Genómica comparada
El genoma del SARS-CoV-2 consta de casi 30.000 bases de ARN. Los científicos han identificado varias regiones que se sabe que codifican genes que codifican proteínas, basándose en su similitud con los genes que codifican proteínas que se encuentran en virus relacionados. Se sospechaba que algunas otras regiones codificaban proteínas, pero no se habían clasificado definitivamente como genes codificadores de proteínas.
Para precisar qué partes del genoma del SARS-CoV-2 contienen realmente genes, los investigadores realizaron un tipo de estudio conocido como genómica comparativa, en el que comparan los genomas de virus similares. El virus SARS-CoV-2 pertenece a un subgénero de virus llamado Sarbecovirus, la mayoría de los cuales infectan a los murciélagos. Los investigadores realizaron su análisis sobre el SARS-CoV-2, el SARS-CoV (que causó el brote de SARS en 2003) y 42 cepas de sarbecovirus de murciélago.
Kellis ha desarrollado previamente técnicas computacionales para realizar este tipo de análisis, que su equipo también ha utilizado para comparar el genoma humano con genomas de otros mamíferos. Las técnicas se basan en analizar si determinadas bases de ADN o ARN se conservan entre especies y comparar sus patrones de evolución a lo largo del tiempo.
Usando estas técnicas, los investigadores confirmaron seis genes que codifican proteínas en el genoma del SARS-CoV-2, además de los cinco que están bien establecidos en todos los coronavirus. También determinaron que la región que codifica un gen llamado ORF3a también codifica un gen adicional, al que denominan ORF3c. El gen tiene bases de ARN que se superponen con ORF3a pero ocurren en un marco de lectura diferente. Este gen dentro de un gen es raro en genomas grandes, pero común en muchos virus, cuyos genomas están bajo presión selectiva para mantenerse compactos. El papel de este nuevo gen, así como de varios otros genes del SARS-CoV-2, aún no se conoce.
Los investigadores también demostraron que otras cinco regiones que se habían propuesto como posibles genes no codifican proteínas funcionales, y también descartaron la posibilidad de que todavía haya más genes codificadores de proteínas conservados por descubrir.
"Analizamos todo el genoma y estamos muy seguros de que no hay otros genes codificadores de proteínas conservados", dice Irwin Jungreis, autor principal del estudio y científico investigador de CSAIL. "Se necesitan estudios experimentales para descubrir las funciones de los genes no caracterizados, y al determinar cuáles son reales, permitimos que otros investigadores centren su atención en esos genes en lugar de dedicar su tiempo a algo que ni siquiera se traduce en proteínas. . "
Los investigadores también reconocieron que muchos artículos anteriores utilizaban no solo conjuntos de genes incorrectos, sino también, a veces, nombres de genes en conflicto. Para remediar la situación, reunieron a la comunidad del SARS-CoV-2 y presentaron un conjunto de recomendaciones para nombrar los genes del SARS-CoV-2, en un artículo separado publicado hace unas semanas en Virology.