GISAID: INICIATIVA INTERNACIONAL PARA COMPARTIR DATOS GENÓMICOS DEL VIRUS DE LA GRIPE Y DEL SARS-COV-2
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Revista Española de Salud Pública PERSPECTIVAS FECHA DE PUBLICACIÓN: 26/2/2021 GISAID: INICIATIVA INTERNACIONAL PARA COMPARTIR DATOS GENÓMICOS DEL VIRUS DE LA GRIPE Y DEL SARS-CoV-2 Marta Hernández Laboratorio de Microbiología y Biología Molecular. Instituto Tecnológico Agrario de Castilla y León. Valladolid. España. Emilio García-Morán Servicio de Cardiología. Hospital Clínico Universitario de Valladolid. Valladolid. España. David Abad Laboratorio de Microbiología y Biología Molecular. Instituto Tecnológico Agrario de Castilla y León. Valladolid. España. José María Eiros Servicio de Microbiología y Parasitología. Hospital Universitario del Río Hortega. Valladolid. España. La aparición de amenazas de enfermeda- GISAID: CONCEPTO des infecciosas que comprometen la salud y la economía mundial, requiere de iniciati- Una carta publicada en agosto de 2006 en vas globales que protejan el interés común. la revista Nature(1) motivó la creación en 2008 Con este objetivo aparecen las plataformas de la iniciativa GISAID (Global Initiative on de almacenamiento genómico que permiten Sharing All Influenza Data) que permite la compartir datos para garantizar o mejorar la disponibilidad inmediata de genomas de los Salud de la población. Así surge GISAID con virus gripales (influenza virus)(2). La informa- un primer objetivo de compartir secuencias ción más compleja y específica de los virus es genómicas de virus gripales que permiten se- su secuencia genética, es decir las letras re- guir la evolución de los mismos y predecir el presentativas de los nucleótidos que les per- diseño de vacunas para anticiparse a la epi- mite su replicación y desarrollo. En el caso de demia del año venidero. En este artículo se los virus gripales y del SARS-CoV-2 se trata revisa el concepto de la iniciativa, y su apor- de ARN, ácido ribonucleico, en contraposi- tación a la actual pandemia de SARS-CoV-2 ción al ADN que es el material heredable en con más de 230.000 genomas depositados en humanos y otros organismos complejos, así su repositorio (2 diciembre 2020). como en bacterias y otros virus. La secuencia completa del material genético de un virus se denomina genoma o borrador de genoma cuando este es incompleto. Esta información sirve para comprender la evolución de un brote epidémico. Los investigadores, inclui- da la OMS y la industria, pueden anticipar cada año el desarrollo de vacunas como la de la gripe. A 30 de mayo de 2020 GISAID al- bergaba 320.542 genomas de gripe mientras que a 2 de diciembre se dispone de 333.059 secuencias (incremento del 3,9%), siendo el registro más antiguo, un genoma del virus influenza del 7 de noviembre de 1985. Esta infraestructura de alojamiento de datos gené- ticos del virus de la gripe ha permitido una www.mscbs.es/resp 1
Revista Española de Salud Pública Marta Hernández, Emilio García-Morán, David Abad, José María Eiros GISAID: INICIATIVA INTERNACIONAL PARA COMPARTIR DATOS GENÓMICOS DEL VIRUS DE LA GRIPE Y DEL SARS-CoV-2 respuesta rápida ante la crisis desatada por el Los genomas y los datos se suben a esta web SARS-CoV-2. Desde el pasado 10 de enero por investigadores de cualquier país del mun- GISAID comenzó a ser también un reposi- do. Para cada genoma se incluye además de la torio genómico del virus SARS-CoV-2, que secuencia genética, otros datos clínicos y epi- hasta el 30 de mayo alojaba 35.249 genomas demiológicos de la muestra. GISAID provee y el 2 de diciembre existen 234.698 secuen- el acceso abierto gratuito a los datos de este re- cias de SARS-CoV-2 depositadas, un incre- positorio que incluyen el nombre científico del mento de más del 500% en 6 meses. virus, el pase de cultivo en el que se secuenció (ya que pueden acumular mutaciones cuan- QUIÉN SON Y do se somete a crecimiento en cultivo celu- QUÉ DATOS OFRECE lar), la fecha de la toma de la muestra, el lugar geográfico y físico de obtención de la mues- La iniciativa GISAID recibe apoyo ad- tra (elementos biológicos, entornos naturales ministrativo de Freunde von GISAID e.V. como una cueva, etc.), la especie hospedadora una asociación registrada sin fines de lucro (humana o animal), en el caso de la especie en Munich (Alemania), organizada y ope- humana el género, edad, y estado clínico del rada exclusivamente con fines benéficos, individuo (hospitalizado, vivo, fallecido), el científicos y educativos. La web está aloja- tipo de muestra de la que se aisló (frotis naso- da por el Ministerio Federal de Agricultura y faríngeo, esputo, lavado traqueobronquial, ori- Alimentación, del gobierno federal alemán y na, heces, etc.) y datos del brote. Además, se recibe apoyo público-privado de los CDC nor- incluyen datos técnicos sobre los modelos de teamericanos (Centers for Disease Control los equipos utilizados en la secuenciación, la and Prevention), el gobierno de Singapur a depth of coverage, es decir el número de veces través de su Agency for Science, Technology que una determinada posición nucleotídica es and Research (A*STAR), la Fundación Sanofi secuenciada, y por tanto permite un ligero fil- Pasteur y la compañía SEQIRUS. Además, la tro por alta o baja cobertura. OMS a través de sus Centros de Vigilancia GISRS, (Global Influenza Surveillance and Existen dos herramientas de búsqueda en Response Systems) localizados en 115 paí- la web de GISAID: Epiflu™ y EpiCoV™, ses y los laboratorios de referencia de la OIE/ que permiten la búsqueda multifactorial de FAO (World Organisation for Animal Health virus de la gripe y SARS-CoV-2, respectiva- and Food and Agriculture Organization) pro- mente. Es posible rastrear y seleccionar ge- porcionan supervisión científica en el desa- nomas por fecha o lugar de aislamiento, país, rrollo de esta plataforma. Para tener acceso a subtipo, hospedador, laboratorio que deposi- los datos es preciso registrarse y aceptar las ta los datos, etc., e incluso una vez seleccio- condiciones de uso, que entre otros requeri- nados se puede utilizar la herramienta blast mientos obliga a agradecer el empleo de sus (Basic Local Alignment Search Tool) y obte- datos y limita el mostrarlos o compartirlos ner un alineamiento múltiple de secuencias fuera de esta comunidad. Hay 21.533 usua- (multiple sequence alignment, msa). rios registrados en GISAID en el momento actual (mayo 2020), que a título ilustrativo GISAID es fundamentalmente una base proceden 376 de España, 5.751 de Estados de datos, pero convertir estos datos en in- Unidos, 3.165 China, 1.096 el Reino Unido formación requiere un análisis bioinformáti- y 720 Alemania. co. Existe una íntima alineación de los datos www.mscbs.es/resp 2
Revista Española de Salud Pública Marta Hernández, Emilio García-Morán, David Abad, José María Eiros GISAID: INICIATIVA INTERNACIONAL PARA COMPARTIR DATOS GENÓMICOS DEL VIRUS DE LA GRIPE Y DEL SARS-CoV-2 de GISAID con varios portales que también como la fecha de muestreo. Estos árboles con han desarrollado una rápida respuesta a la ramas se pueden ampliar o colorear según se emergencia SARS-CoV-2. Un ejemplo es desee consultar, por ejemplo, la procedencia, Nexstrain(4) que tiene como objetivo propor- o un determinado genotipo que indique una cionar una instantánea en tiempo real de la mutación en un aminoácido. Resulta facti- evolución de las poblaciones de patógenos ble buscar mutaciones que definan un grupo y proporcionar visualizaciones interactivas. de interés (clado), y luego se puede definir Permite observar conjuntos de datos actua- clados por cambios de aminoácidos o de nu- lizados frecuentemente, proporcionando una cleótidos, que ocurren con mayor frecuencia, herramienta de vigilancia novedosa para las y mediante su anclaje es posible redefinir el comunidades científicas y de salud pública. árbol con otra raíz. También se representa la Nexstrain es un proyecto de código abierto variabilidad del alineamiento en función del escrito en Javascript y Python, que utiliza tiempo y la frecuencia de la sustitución de un como repositorios principales datos genómi- determinado aminoácido a lo largo del tiem- cos de NCBI(4), GISAID(2) y ViPR(5). po. Posibilita así mismo rastrear y reconstruir el árbol para una determinada mutación y PARA QUÉ SIRVE mostrar esta información como un gráfico de EL CONTENIDO DE GISAID barras de entropía en cada posición en el ge- noma. La selección de una posición en el ge- GISAID es una base de datos de consi- noma con entropía distinta de cero revela la derable tamaño, dinámica y compleja, que distribución de la variante segregadora en la permite a los usuarios registrados descar- filogenia y en el mapa. Esto permite interro- gar los datos, analizarlos y elaborar litera- gar el cambio genético que puede ser adapta- tura científica. Esto requiere conocimientos tivo o subyacente a un cambio en la dinámica y herramientas de bioinformática, estadís- de la enfermedad. Para ello es importante el tica y visualización de datos. Otra posibili- sesgo de muestreo, ya que la falta de datos dad interesante son los proyectos que hacen puede oscurecer los enlaces de transmisión. uso de la información de GISAID como son Para muchos patógenos, la aparición y pro- los portales Nexstrain y el Centro Nacional pagación de variantes de ganancia de función de Bioinformación de China(6); ellos anali- es una preocupación grave y resulta necesaria zan y realizan una representación gráfica de la monitorización continua de tales mutacio- la información genómica en árboles filoge- nes putativamente adaptativas. Por ejemplo, néticos, dendrogramas interactivos elabo- las mutaciones identificadas por de Vries et rados a partir de los genomas anotados que al (2017) en el ámbito de los virus de la gri- permiten interpretar la evolución de las mu- pe aviar son fácilmente visibles en nextstrain. taciones. Nextstrain también integra infor- org/avian/h7n9. mación de otros virus como Zika, Dengue, Ébola, Gripe, Fiebre de Lassa, Virus del Nilo Un aspecto importante de la base de da- Occidental, Sarampión, Enterovirus y ahora tos de GISAID que cabe mencionar, es que Coronavirus(7). Se indica por colores la región no prefiltra las secuencias depositadas de geográfica de procedencia o el laboratorio de cualquier genoma y se basa en una acuerdo envío del genoma, las mutaciones en epíto- y compromiso del autor que envía los datos, pos o en los receptores de unión a la célula siendo muy fácil realizar el envío del geno- eucariota, la frecuencia de mutación y datos ma. Incluso algunas plataformas comerciales www.mscbs.es/resp 3
Revista Española de Salud Pública Marta Hernández, Emilio García-Morán, David Abad, José María Eiros GISAID: INICIATIVA INTERNACIONAL PARA COMPARTIR DATOS GENÓMICOS DEL VIRUS DE LA GRIPE Y DEL SARS-CoV-2 como las de la compañía Illumina permiten la actividad 3′–5′ exonucleasa que mantiene la secuenciación y ensamblado del genoma con estabilidad del genoma vírico y permite la es- un pipeline disponible en su web BaseSpace cisión de errores, por lo que los coronavirus (Illumina SARS-COV-2 NGS Data Toolkit) están acumulando mutaciones mucho más que incluye el depósito directo del genoma lentamente que otros virus ARN. Aun así, la mediante GISAID Submission App. Por ello variación genética referida a genomas com- cabe que se encontren genomas cuya calidad pletos, situada en el espacio y en el tiempo, de secuencia es deficiente en un alto porcen- permite analizar la cadena de transmisión de taje de posiciones del genoma, y son indica- los aislados. Su genoma consta de 29.903 pa- das por la letra N, como posición de conte- res de bases, en cuyos extremos existen dos nido indeterminado. En nuestra experiencia regiones UTR (untranslated regions), y en de consulta de las 29.903 pares de bases nu- medio hay 10 ORF (open reading frame, seg- cleotídicas del SARS-CoV-2 nos hemos en- mentos codificantes) que se traducen en 25 contrado genomas con hasta un 5% de Ns en proteínas. Dos tercios de todo el genoma lo su secuencia. Si bien es verdad que cualquier ocupan las ORF1a y ORF1b que forman dos dato bien interpretado puede ser útil, hay polipéptidos pp1a (nsp1-11) y pp1ab (nsp1- que prestar atención a los genomas con sig- 10, nsp12-16) procesados por dos cistein nificativos segmentos indeterminados, estos proteasas codificadas en nsp3 (papain-like genomas solo serían válidos para interpretar proteasa; PLpro) y nsp5 (quimiotripsina-like determinados segmentos concretos del ge- protease) también conocida como 3CLpro. El noma. La variabilidad que indican las mu- otro tercio de genoma codifica las 4 proteínas taciones dentro de cada genoma puede estar estructurales, la ORF2 codifica la proteina es- distribuida de forma muy desigual a lo lar- picular (S), la ORF4 codifica las proteínas de go de la secuencia, aquellas posiciones (loci) envoltura (E), la ORF5 la de membrana (M) que menos varían, es decir, más conserva- y la ORF9 la nucleocápside (N). Los datos das, pueden indicar segmentos implicados de GISAID permiten análisis filogenéticos en funciones biológicas clave para el virus. periódicos de los genomas de modo que en Además, las mutaciones permiten estable- un primer momento se establecieron se esta- cer linajes de cepas que ilustran la cadena de blecieron como dos cepas denominadas S y transmisión o se correlacionan con aspectos L, después en los primeros meses del año se clínicos, o permiten la identificación de bro- definieron 3 grandes clados o variantes ma- tes y reinfecciones. yoritarios en SARS-CoV-2 en función de 3 mutaciones. Esto es una situación dinámica y EL GENOMA DE SARS-COV-2 el 26 de mayo, aparece un nuevo clado y dos subclados, se hicieron 6 agrupaciones filoge- El SARS-CoV-2, como cualquier otro vi- néticas, la L se dividió en V y G, y más tarde rus, produce mutaciones cada vez que se la G en GH y GR: L, 2.390 genomas; S, 2.367 multiplica dentro de una célula, pero pre- genomas; G, 6.723 genomas; GR, 7.497 ge- senta una estabilidad de secuencia superior nomas; GH, 6.581 genomas; V, 2.374 geno- a otros virus como el de la gripe debido a mas; y 1.372 genomas pertenecientes a otros que dispone de un mecanismo intrínseco de clados. Hoy se han establecido 8 clados (S, L, corrección de errores durante la replicación V, G, GH, GR, GV y O) que incluyen una se- del virus. Se trata de una proteína codificada rie de mutaciones, hasta 31 recoge GISAID. en la orf1ab denominada nsp14 (ExoN) con La G incluye la variante D614G que es la www.mscbs.es/resp 4
Revista Española de Salud Pública Marta Hernández, Emilio García-Morán, David Abad, José María Eiros GISAID: INICIATIVA INTERNACIONAL PARA COMPARTIR DATOS GENÓMICOS DEL VIRUS DE LA GRIPE Y DEL SARS-CoV-2 más prevalente en el mundo y el clado GV están siendo asumidos por los gobiernos que incluye la “nueva” variante europea A222V. los promueven para el mantenimiento de los servicios web y el personal adscrito es finan- En conclusión, la disponibilidad de un nú- ciado por las instituciones científicas de las mero elevado de genomas de patógenos como cuales dependen, pero aporta una gran ven- el SARS-CoV-2 o la gripe, a través de una ini- taja para el resto de la comunidad científica ciativa como GISAID, permite ver fenómenos y para los profesionales clínicos y del ámbito en la transmisión del virus, así como identifi- de la salud pública, y un ejemplo impecable car elementos importantes en su secuencia ge- de colaboración. nética. Esto último aporta información que re- percutirá positivamente en el correcto enfoque BIBLIOGRAFÍA de modelos vacunales (mutagénesis dirigida o ensamblaje de fragmentos genómicos) y la in- 1. Boosting access to disease data. Nature 442, 957 vestigación de dianas terapéuticas, que puede (2006). https://doi.org/10.1038/442957a hacerse incluso previamente a la investigación biológica, para cribado de múltiples candida- 2. Global Initiative on Sharing All Influenza Data (con- tos por características estructurales codifica- sultado el 30/05/2020, require registrarse). Disponible en: das (molecular docking). www.gisaid.org La aportación de este tipo de iniciativas a 3. Real-time tracking of pathogen evolution (consultado el la Salud Pública y a la Medicina Clínica es 30/05/2020). Disponible en: https://nextstrain.org clave. Las nuevas aplicaciones de secuen- ciación masiva que generan gran cantidad 4. National Center for Biotechnology Information (consul- de datos de forma económica, conllevan un tado el 30/05/2020). Disponible en: www.ncbi.nlm.nih.gov cambio en el paradigma del análisis micro- biológico pasando de un ámbito laboratorial 5. Virus Pathogen Resource (consultado el 30/05/2020). a uno computacional(8). Sin embargo, es im- Disponible en: www.viprbrc.org parable su aplicación en la rutina del diag- nóstico puesto que ofrecen una información 6. China National Center for Bioinformation (consultado de carácter epidemiológico (tipado), clínico el 30/05/2020). Disponible en: https://bigd.big.ac.cn/ncov (resistencia a antimicrobianos, genes de vi- rulencia), trazabilidad (mapas geográficos de 7. Hadfield J, Megill C, Bell SM, Huddleston J, Potter origen de brotes), detección de reinfecciones, B, Callender C, Sagulenko P, Bedford T, Neher RA. evolución de virulencia, etc. Esta web permi- Nextstrain: real-time tracking of pathogen evolution, te de forma gratuita de momento el depósito Bioinformatics, 34, 23(2018), pp 4121–4123. https://doi. y acceso a las secuencias genómicas y no in- org/10.1093/bioinformatics/bty407 fiere un coste adicional al procesado, permi- te un retorno invaluable ya que dimensiona 8. Hernández M, Quijada NM, Rodríguez-Lázaro D, Eiros el estudio de poblaciones a un ámbito mun- JM. Aplicación de la secuenciación masiva y la bioinfor- dial y no meramente local en vistas a la evi- mática al diagnóstico microbiológico clínico. Revista dente globalización que afecta a la Salud del Argentina de Microbiología. https://doi.org/10.1016/j. conjunto de la humanidad. Además, iniciati- ram.2019.06.003 https://www.sciencedirect.com/science/ vas como esta genera costes que de momento article/pii/S0325754119300811 www.mscbs.es/resp 5
También puede leer