Mi cuarentena como Bioinformática

Sarai Varona
Bioinformatician at ISCIII

Me llamo Sarai, tengo 26 años, estudié la carrera de Bioquímica y Biología molecular y estudié dos másters, uno en Bioinformática y otro en Biología Molecular y Biomedicina. Actualmente trabajo en la unidad de Bioinformática del Instituto de Salud Carlos III de Madrid y hoy me gustaría contaros como viví la cuarentena de 3 meses por el SARS-CoV-2 en la que llegué a desarrollar un pipeline con una de las comunidades que yo más admiro en mi campo, nf-core. 

En la Unidad de Bioinformática del Carlos III, donde trabajo, lo que hacemos es dar servicio de análisis a todo el centro, principalmente para datos de secuenciación. Entre las múltiples tareas que realizamos, una de ellas es analizar datos de secuenciación de genomas virales (virus variados, además) para la obtención del genoma consenso de la muestra en cuestión.

Isabel Cuesta (responsable), Sarai Varona y Miguel Juliá, de la Unidad de Bioinformática del ISCIII, donde también trabaja Sara Monzón.

Como todos sabéis, en marzo de 2020 se decretó un estado de alarma debido a una pandemia mundial que ha afectado todo el planeta tierra (por si no os habíais dado cuenta), y nuestro papel como unidad de análisis de secuenciación de uno de los centros de referencia de salud pública en España era obtener el genoma consenso del SARS-CoV-2 a partir de la secuenciación de éste.

En aquel momento no existía un protocolo establecido de como realizar este análisis con los datos de secuenciación de Illumina, pero basándonos en nuestra experiencia previa con otros tipos de virus se nos ocurrió que podíamos utilizar algunas de las herramientas que ya utilizábamos e integrarlas en un único flujo de análisis utilizando un software llamado Nextflow. Ya veníamos utilizando Nextflow con anterioridad y lo que este permite es crear flujos de trabajo escalables y reproducibles, lo que es muy útil en nuestro campo y si no lo conocéis os animo a que lo probéis.

Aprovechando que se iba a celebrar pronto el primer Biohackaton virtual de SARS-CoV-2, nos inscribimos con el objetivo de incluir nuestro flujo de trabajo entre los que se presentaban en el hackaton. Fue en ese momento cuando la comunidad nf-core, una comunidad europea que desarrolla flujos de trabajo estandarizados utilizando Nextflow, dio con nuestro borrador del proyecto de flujo de trabajo en Nextflow para analizar datos de secuenciación de SARS-CoV-2. Estos contactaron con nosotros para ofrecernos una colaboración, de forma que juntos participaríamos en este Biohackaton virtual para desarrollar de forma eficaz y fiable un flujo de análisis capaz de generar genomas consenso a partir de la secuenciación de Coronavirus en Illumina. 

Para mi y mis compañeros de trabajo esta oferta fue todo un orgullo y sin dudarlo aceptamos, sin tener claro lo que ello implicaba ni cual sería la mecánica de trabajo en conjunto con la comunidad de nf-core. El primer paso fue crear un repositorio de github desde el que todos pudiéramos trabajar desde nuestras casas (ya que estábamos confinados) y desde todas partes del mundo (ya que es una comunidad europea en la que participan distintos países). Después creamos un canal de slack en el que poder comunicarnos de forma fluida y dividirnos las tareas que desempeñaría cada uno. Yo pensaba que lo grueso del trabajo ya estaba hecho ya que en nuestro grupo ya teníamos escogidos los programas que incluiría el flujo de trabajo después de nuestra experiencia previa con virus y después de haber contrastado distintos programas con este fin. Sin embargo, no todo sería tan fluido y sencillo como yo esperaba.

La primera semana creando este flujo de trabajo se desarrolló durante la celebración del Biohackaton, de forma que nos pasábamos casi todas las horas del día programando y testando código sin parar, poniéndolo en común con los demás compañeros y realizando un montón de análisis de prueba y error. Como estábamos participando el este evento era de esperar que pasaríamos muchas horas seguidas en la programación y lo aceptamos de buen grado. Sin embargo, el Biohackaton finalizó y nuestro flujo de trabajo no había finalizado del todo, por lo que seguimos trabajando en ello como parte de nuestra rutina laboral de bioinformático.

Aquí es donde empezó la parte más dura, ya que se esperaba de nosotros seguir participando en la programación de este flujo de trabajo al mismo nivel que lo habíamos hecho hasta ese momento, pero además teníamos que seguir con nuestro trabajo habitual que era dar servicio a un centro de sanidad nacional. Afortunadamente seguíamos todos encerrados en casa y no había que perder horas del día en ir a trabajar, ni en ir al gimnasio y a veces no era necesario ni ducharse todos los días (todos lo habéis hecho, no lo neguéis), así que teníamos muchísimas más horas diarias para poder afrontar la carga laboral que se nos vino encima. Trabajábamos fines de semana y festivos mientras veíamos como el resto de la población (o incluso de la comunidad científica no bioinformática) se dedicaba a la repostería, a empezar con el yoga o a aprender un idioma nuevo. Nosotros no podíamos permitirnos ese lujo. 

Había días que teníamos la suerte de poder ir físicamente al centro a poner un secuenciador y teníamos una excusa no solo para salir de casa, sino para poder levantar la cabeza de la pantalla por unos momentos con una excusa que era inevitable y que no se podía posponer. Así pasaron los días y también pasó una cuarentena. Entre risas y lágrimas (sí, también hubo lágrimas), empezamos a entrar en fases de desescalada y el flujo de trabajo estaba ya casi finiquitado, solo quedaba testar que no hubiera errores de código, ya podíamos reservar parte de nuestro día para salir a pasear con el resto de las personas normales mientras el código se testaba, ya lo solucionaríamos al volver de pasear en la hora que nos dejaba el gobierno.

Así, junto con el levantamiento del estado de alarma en España, la primera versión oficial de nuestro flujo de trabajo para la creación de genomas consenso de SARS-CoV-2 vio la luz del sol la primera semana de julio de 2020, lo llamamos viralrecon. Fue una liberación saber que el flujo de trabajo ya había terminado, que por fin en nuestro país se podía salir de tu comunidad autónoma y volver a tu pueblo de origen. Tanto mis compañeros como yo sentimos una sensación de liberación infinita, porque sabíamos que podríamos empezar a dedicar tiempo de nuestro día al ocio otra vez.

A día de hoy, utilizamos este flujo de trabajo de Nextflow para analizar todos los datos de secuenciación de SARS-CoV-2 y además lo estamos utilizando también para generar genomas consenso de otros virus que secuenciamos en el centro. Espero que este testo haya servido a alguien a sentirse identificado, ya que somos de los pocos gremios que en un confinamiento pueden seguir dando el 100% o a descubrir Nextflow o nf-core y que os haya servido en vuestro día a día. Si alguno tiene curiosidad por conocer más sobre este flujo de trabajo, sobre Nextflow o sobre la comunidad nf-core, puede contactar con nosotros o entrar en cualquiera de estas webs: 

Shopping Basket