beautiful-color-palettes-combinations-schemes-feature-image

Pon mucho color en tus gráficos

Pon mucho color en tus gráficos

Irene Soler
PhD candidate at CIPF
Carla Perpiñá
PhD candidate at CIPF

La visualización de datos biológicos es la transformación de estos en figuras, con el objetivo de simplificar los resultados facilitando la comprensión, y resaltar la información más relevante. En bioinformática y biología computacional generamos una gran cantidad de resultados y el paso de representarlos es muy importante, pues como dijo William S. Cleveland la visualización es crítica para el análisis de datos y aporta una primera línea de ataque. En esta tarea no solo es importante escoger bien el tipo de gráfico o figura, los colores juegan un gran papel. Seleccionar una buena combinación de colores puede resultar un proceso trabajoso pero muchas veces un poco de color hace que tus datos sean maravillosos y mucho más atractivos.

✨ Aquí os damos algunos truquitos y os facilitamos recursos para que vuestras figuras os queden de museo ✨

Se recomienda que dependiendo del tipo de dato elijas un tipo de paleta, por ejemplo:

image1

Datos discretos o categóricos

Paleta cualitativa, es decir una mezcla de colores bien diferenciados para poder distinguir cada categoría fácilmente

image3

Datos cuantitativos (mayor a menor o viceversa)

Paleta secuencial, un gradiente de colores, de oscuro a claro o viceversa.

image2

Datos con desviaciones respecto a 0 o a la media

Paletas divergentes, hay un orden entre los valores pero hay también un "centro" definido.

⚠️ ¡NOTA! ⚠️ 

No olvides que no todas las personas percibimos los colores de la misma forma. Por eso intenta buscar paletas colorblind-friendly.

Coolors 

Coolors es una herramienta web con un amplio espectro de posibilidades. 

Por una parte, podemos explorar las Trending Color Palettes. Estas paletas de colores ya están generadas y listas para ser utilizadas. Pasando el ratón sobre cada color obtenemos su valor hexadecimal. Si clicamos sobre los tres puntitos (…) conseguimos información más detallada: obtener los valores con otro código de colores, exportar y guardar la paleta. Por defecto, en el listado aparecen las que están “más de moda”, pero podemos buscar las paletas que más nos interesen filtrando por colores, estilos, temas, etc. ¡Mirad qué paletas tan bonitas tenemos relacionadas con la puesta de sol!

 

Si por el contrario, sois muy artistas y queréis diseñar vuestra propia paleta, Coolors también es una gran herramienta. Para ello, entramos en “Start the generator!”. Por defecto nos aparecen cinco colores, pero podemos generar paletas entre 2 y 7 colores (si queremos añadir nos ponemos en el límite entre los dos colores y clicamos +; y si queremos eliminar clicamos en la cruz de un color en cuestión). Cada vez que presionamos la tecla del espacio los colores cambian. Cuando encontremos alguno que nos guste, lo tenemos que bloquear con el icono del candado. De este modo, iremos tecleando espacio y bloqueando hasta lograr la paleta que más nos guste. Además, podemos cambiar los colores de posición, así como ver su gradiente de tonalidades. Una vez conseguida la paleta de interés, copiamos el código hexadecimal y ¡listo!, ya podemos utilizar la paleta en nuestros gráficos.

image4

Adobe Color 

Adobe Color es otra herramienta web muy completa que podemos dividir en cuatro apartados. 

El primero de ellos se llama Rueda cromática. Tal y cómo indica su nombre, nos permite generar paletas en base a distintas armonías de colores de la rueda cromática (por ejemplo, paletas monocromáticas o con colores complementarios).

Seguidamente podemos encontrar Extraer tema. En este apartado podemos subir nuestra imagen favorita1 y la herramienta se encargará de extraer la paleta de colores de la misma. ¡Así podremos adaptar los colores de los gráficos a los colores de las imágenes o temáticas de nuestras presentaciones!

Si en lugar de extraer colores independientes queremos obtener un degradado de la imagen que hemos subido, el apartado Extraer degragado es nuestro gran aliado.

Y por último pero no menos importante, encontramos el apartado de Herramientas de accesibilidad. Por una parte, tenemos el “Seguro para daltónicos”, que al igual que Coolors nos permite comprobar si todas las personas podrán discernir los colores de nuestra paleta. Además, Color Adobe cuenta con el “Comprobador de contraste”. La elección de un color para la escritura de un texto es dependiente del color de fondo que tengamos que utilizar. En el caso más extremo, si usamos el mismo color para el texto y el fondo, no podremos leer el texto. ¡Parecerá que no hemos hecho el trabajo! Esta herramienta nos va a permitir comprobar si los colores utilizados para el texto y para el fondo contrastan lo suficiente para no dificultar la lectura.

Paletas en R

MetBrewer 

En este paquete podemos encontrar paletas inspiradas en obras del Museo Metropolitano de Arte de Nueva York.

Woman’s Dress and Accessories, 2005, Jodi Archambault, Hunkpapa Lakota (Teton Sioux) Colorblind-Friendly (Link)

peRReo 

Estas paletas han sido creadas a partir de los colores de las portadas de los discos de artistas de reggaeton/latino utilizando el paquete paletter para la extracción de paletas, y editadas manualmente para mejorar tanto la estética como la inclusividad.

Recomendaciones de lectores

Hace unos días preguntamos a través de nuestras redes sociales vuestras mejores recomendaciones para elegir paletas:

Así que como prometimos, os dejamos por aquí algunas de las que nos habéis hecho:

harrypotter

Este paquete proporciona paletas derivadas de la serie de películas de Harry Potter. En su primera versión, incluía únicamente las paletas de las Casas de Hogwarts elegidas manualmente, teniendo en cuenta tanto su idoneidad para la visualización de datos. En versiones posteriores, incluye también paletas de algunos personajes como Hermione o Harry.

wesanderson

¿Cansado de paletas genéricas producidas en masa para tus gráficos? A falta de vestir a tu plot con un búho y un bombín, esto es lo más indie que puedes hacer. Primera ronda de paletas derivadas del increíble blog de Tumblr Wes Anderson Palettes.” Este paquete de R contiene paletas de varios films del director Wes Anderson, conocido por ser un completo obseso de las paletas de colores y por la  extremadamente cuidada y delicada dirección de fotografía que caracteriza a sus películas.

calecopal

Este paquete, que incluye paletas inspiradas en fotografías de California y sus parajes, se construyó empleando el código del paquete wesanderson, fotografías personales y las herramientas Canvaimagecolorpicker.

MaizePal

Este paquete está inspirada en los patrones de color que generan los transposones en el maíz, desde granos brillantes y rojos como rubíes, a otras de color rosa y púrpura, pasando por granos de Oaxaca de color verde jade y azul, mazorcas de Perú que parecen piñas de color crema con motas de color púrpura, y otras que son negras como el carbón cuando se cosechan y magenta cuando se muelen. Estos patrones inspiraron la investigación de Bárbara McClintock, lo que le valió el premio Nobel de Medicina en 1983. 

Bonus Track: Palette Color Picker

Como regalo, os dejamos también esta genial herramienta que permite seleccionar entre un sinfín de paletas disponibles para R de forma interactiva. ¡Corred a probarlo!

También os dejamos el repositorio de github, donde encontraréis una enorme variedad de paletas con links a los repositorios originales.

¡Muchísimas gracias a @VeroLlorens, @eandresleon, @Miguel_MoPe, @EvaAlloza, @BrunoContrerasM, @c_sernab, @Dav_morale, @xaairg, @drelopara, @HectorLpezMore1,  y @marc_noguera por vuestras contribuciones!

global_ancestry

De la globalización a la individualización

De la globalización a la individualización

Ana Díaz-de Usera
PhD candidate at Universidad de La Laguna

Desde que en los años 20 P.A. Levene definiera el ADN como una molécula constituida por cuatro bases nitrogenadas, un azúcar y un grupo fosfato, el campo de la genética ha evolucionado a un ritmo vertiginoso que, año tras año, sigue aumentado de forma exponencial. Tal es así que, en el año 2003, se completó la primera secuencia del genoma humano tras 13 años de trabajo y un presupuesto de 3.000 millones de dólares y, a día de hoy, el precio medio de un genoma completo ronda los 1.000$ y el tiempo promedio que tarda en obtenerse es de 3 a 5 días. El Proyecto Genoma Humano (PGH) ha supuesto el pistoletazo de salida para que muchos otros proyectos comenzaran su andadura, tales como el Proyecto 1.000 Genomas (1KGP), el Proyecto 100.000 Genomas o el Proyecto de Diversidad Genómica de Simons. Además, el PGH ha servido como antesala de los proyectos Proyecto Microbioma Humano y Proyecto Proteoma Humano, centrándose el primero en el análisis de las posibles correlaciones entre el cambio del microbioma y el estado de salud de una persona y el segundo en el estudio del funcionamiento, secuencia de aminoácidos y plegamiento de las proteínas humanas.

El 1KGP (fase 3) permitió analizar el material genético de unas 2.500 personas procedentes de países a lo largo de todo el globo terráqueo. Con este proyecto se pretendió llevar a cabo una caracterización poblacional sin precedentes que permitiera definir las diferencias genéticas existentes entre individuos procedentes de hasta 26 poblaciones diferentes. De esta forma, no solo se pudo estudiar la distribución de las variantes en los diferentes rangos de frecuencia a lo largo de las poblaciones (variantes comunes vs. variantes raras) si no que, además, se obtuvo bastante información sobre los procesos que dan lugar a la diversidad genética. Tomando como base el Proyecto 1.000 Genomas se pudo determinar que cualquier genoma típico de un individuo, seleccionado aleatoriamente de cualquiera de las poblaciones de estudio, difería entre 4,1 y 5 millones de posiciones respecto al genoma humano de referencia1. Este hecho circunscribe uno de los mayores cambios de paradigma que ha existido en el campo de la genética de poblaciones y la medicina moderna: el análisis ideal de la variación genética natural pasa por el estudio individualizado de dicha variación. De esta forma, si un individuo es susceptible a padecer una determinada enfermedad con base genética, el umbral que se establecerá para los diferentes marcadores de dicha patología será propio del paciente. Esto quiere decir que, durante un periodo de tiempo, se realizará un estudio sobre los valores entre los que fluctúa el parámetro analizado permitiendo obtener una tendencia de valores frente a la que medir cuán desviados podrían ser los futuros datos de esa medida para ese individuo. Las desviaciones significativas de dichos valores recopilados se toman como un indicativo de cambio en el estado de salud, independientemente de si los nuevos valores superan o no el umbral de la población. Un estudio de Drescher y colaboradores2 (2013) muestra la utilidad de esta aproximación en el campo del cáncer de ovarios, donde se ha observado que el establecimiento de umbrales personales en los valores del marcador tumoral CA-125 habría detectado la presencia del cáncer al mismo tiempo, o incluso un año antes que mediante el uso de umbrales poblacionales. No obstante, esta aproximación se encuentra muy lejos de alcanzarse debido a la importante inversión que supone tanto en los ensayos como en las tecnologías de monitoreo.  Sin embargo, y dado que la aproximación más cercana y precisa consiste en la segregación poblacional, diferentes países han establecido catálogos propios basados en el trasfondo genético de su población. De hecho, las estimas apuntan a que si consideramos poblaciones del mismo continente la proporción de variantes raras compartidas es del 70-80% mientras que esa misma proporción desciende hasta 10-30% cuando las poblaciones estudiadas corresponden a continentes diferentes3,4,5 . Entre algunos de los países que han generado sus propios catálogos de variación genética natural encontramos al Reino Unido6, Finlandia7, Iran8, Corea9 y Japón10. Este hecho les ha permitido contextualizar la variación genética común y rara dentro de su propia singularidad genética, pudiendo así definir variantes putativas causantes de enfermedad que en otras circunstancias y/o poblaciones no están suscritas a esas mismas condiciones. Atendiendo al estudio de la variación genética de cada población en su propio contexto genético, se ha encontrado una región cromosómica concreta relacionada con el mayor grado de longevidad en población búlgara11. Otro ejemplo de la utilidad de contextualizar se ve reflejado en el enriquecimiento en variantes de riesgo a sufrir trastornos de pánico que se ha encontrado en la población de las Islas Faroe12.

A pesar de todos los beneficios que aporta el incremento de la diversidad poblacional en los diferentes estudios, a día de hoy, sigue existiendo una acuciante desigualdad a este respecto. Tal es así que los estudios incorporados en el GWAS catalog entre los años 2005 y 2016 incluyeron un 78% de individuos de ascendencia europea, siendo la población asiática aquella con el segundo porcentaje más alto (11%). Se puede apreciar, por lo tanto, un marcado desbalanceo en la representatividad de las diferentes poblaciones en una plataforma de tan amplio alcance como es el GWAS Catalog. Sin embargo, y al igual que ha ocurrido con la medicina moderna, ha tenido lugar un cambio de paradigma gracias al cual se han desarrollado o se están desarrollando catálogos propios o estudios bastante amplios de poblaciones infrarrepresentadas para contextualizar la epidemiología de las enfermedades más comunes en ellas. Un claro ejemplo de ello son la población árabe13, la población hawaiana14 y la población de Cilento15, al sur de Italia. Así mismo, diferentes países se han hecho eco de esta nueva dirección en la compresión de la arquitectura poblacional y han puesto en marcha grandes proyectos orientados a cubrir el estudio de poblaciones infrarrepresentadas en los últimos años. El ejemplo por excelencia de este tipo de proyectos lo encontramos en el consorcio The Human Heredity and Health in Africa (H3Africa) que busca promover estudios de base genética y ambiental de enfermedades humanas en población africana y su aplicación clínica. No obstante, incluso con ese gran avance en la diversificación de ascendencias en los diferentes estudios, a día de hoy existen muchas poblaciones que siguen encontrándose en una mínima proporción como es el caso de la población norteafricana. Este hecho no solo condiciona los análisis dentro de la población infrarrepresentada, sino que también afecta negativamente al estudio de todas aquellas otras que presentan ascendencia de dicha población infrarrepresentada. Muchos son los trabajos que avalan que una correcta clasificación y categorización de las ascendencias en cualquier análisis poblacional permite una mejora en la clasificación de variantes en la población de estudio, así como un mejor diagnóstico y la aplicación de tratamientos más adaptados16. En definitiva, la mejora en los recursos de ascendencia disponibles supone, en última instancia, una mejora en la medicina personalizada.

Por lo tanto, en una ciencia donde actualmente debe primar la individualización frente a la globalización, es imprescindible caracterizar las particularidades intrínsecas de cada población en pos de un diagnóstico más fiel al contexto genético del paciente. Y esto, pasa por romper con el sesgo europeísta que ha acompañado a la ciencia desde que Levene definiera por primera vez la composición de una molécula de ADN.  

Referencias

1 The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 2015; 526: 68–74.

2 Drescher CW, Shah C, Thorpe J, O’Briant K, Anderson GL, Berg CD, et al. Longitudinal screening algorithm that incorporates change over time in CA125 levels identifies ovarian cancer earlier than a single-threshold rule. J Clin Oncol 2013; 31(3): 387–392.

3 Gravel S, Henn BM, Gutenkunst RN, Indap AR, Marth GT, Clark AG, et al. Demographic history and rare allele sharing among human populations. Proc Natl Acad Sci U.S.A. 2011; 108(29): 11983-11988.

4 Nelson MR, Wegmann D, Ehm MG, Kessner D, Jean PSt, Verzilli C, et al. An abundance of rare functional variants in 202 drug target genes sequenced in 14,002 people. Science 2012; 337(6090): 100-104.

5 Tennessen JA, Bigham AW, O’Connor TD, Fu W, Kenny EE, Gravel S, et al. Evolution and functional impact of rare coding variation from deep sequencing of human exomes. Science 2012; 337 (6090): 64-69.

6 The UK10K Consortium. The UK10K project identifies rare variants in health and disease. Nature 2015; 526: 82–90.

7 Chheda H, Palta P, Pirinen M, McCarthy S, Walter K, Koskinen S, et al. Whole-genome view of the consequences of a population bottleneck using 2926 genome sequences from Finland and United Kingdom. Eur J Hum Genet 2017; 25(4): 477–484.

8 Fattahi Z, Beheshtian M, Mohseni M, Poustchi H, Sellars E, Nezhadi SH, et al. Iranome: A catalog of genomic variations in the Iranian population. Hum Mutat 2019; 40(11): 1968-1984.

9 Kim J, Weber JA, Jho S, Jang J, Jun J, Cho YS, et al. KoVariome: Korean National Standard Reference Variome database of whole genomes with comprehensive SNV, indel, CNV, and SV analyses. Sci Rep 2018; 8: 5677.

10 Nagasaki M, Yasuda J, Katsuoka F, Nariai N, Kojima K, Kawai Y, et al. Rare variant discovery by deep whole-genome sequencing of 1,070 Japanese individuals. Nat Commun 2015; 6: 8018.

11 Serbezov D, Balabanski L, Karachanak-Yankova S, Vazharova R, Nesheva D, Hammoudeh Z, et al. Novel genes and variants associated with longevity in Bulgarian centenarians revealed by whole exome sequencing DNA pools: a pilot study. J transl genet genom 2020; 4: 446-454.

12 Gregersen NO, Lescai F, Liang J, Li Q, Als T, Buttenschøn HN, et al. Whole-exome sequencing implicates DGKH as a risk gene for panic disorder in the Faroese population. Am J Med Genet B Neuropsychiatr Genet 2016; 171(8): 1013–1022.

13 Al-Ali M, Osman W, Tay GK, AlSafar HS. A 1000 Arab genome project to study the Emirati population. J Hum Genet 2018; 63:533–536.

14 Lin M, Caberto C, Wan P, Li Y, Lum-Jones A, Tiirikainen M, et al. Population specific reference panels are crucial for the genetic analyses of Native Hawai’ians: an example of the CREBRF locus. bioRxiv 2019.

15 Nutile T, Ruggiero D, Herzig AF, Tirozzi A, Nappo S, Sorice R, et al. Whole-exome sequencing in the Isolated populations of Cilento from South Italy. Sci Rep 2019; 9:4059.

16 Sirugo G, Williams SM, Tishkoff SA. The Missing Diversity in Human Genetic Studies. Cell 209; 177(1): 26–31.

foto8

Conociendo Cytoscape

Conociendo Cytoscape

Zulema Rodríguez Hernández
PhD student at National Center for Epidemiology

Importancia de Cytoscape

El avance en la última década de las ómicas ha producido un crecimiento exponencial de datos biológicos. Lo cual ha provocado la necesidad de desarrollar herramientas capaces de analizar y extraer la información más relevante de esta maraña de datos. Por muy paradójico que suene, una forma de poder sintetizar todos estos datos es a través de la generación de redes (o networks en inglés) ya que en muchas ocasiones reducen la complejidad de los datos y resultan más eficientes que las típicas tablas, son una buena estrategia para la integración de datos y permiten una visualización más intuitiva de los mismos. Además, las redes las encontramos en todas las partes (ya hemos escuchado todos hablar del famoso “social networking” 😋), especialmente en la biología como por ejemplo la comunicación celular, sistema nervioso, conexiones moleculares, etc.

Por eso hoy os vengo hablar de una herramienta muy útil en el campo de la bioinformática: Cytoscape. Se trata de un software de código abierto que sirve para visualizar redes complejas e integrarlas con cualquier otro tipo de datos. En el caso de, por ejemplo, una red genética, cada nodo representaría un gen y las aristas (la línea que une los nodos) representaría la relación existente entre ellos. Pero redes hay de muchos tipos, de genes, de proteínas, de metabolitos, metilación, rutas metabólicas, etc e incluso hay redes que combinan varios tipos de datos. Cabe añadir que Cytoscape también puede utilizarse en ámbitos no biológicos como por ejemplo para el modelado de sistemas de agua, calcular distancias entre estrellas o para el diseño de vías ferroviarias.

¿Y cómo puedo empezar a utilizar Cytoscape?

Existen muchos tutoriales tanto en Youtube como en Internet que te pueden ayudar a iniciarte en Cytoscape. Sin duda, lo que más me ayudó fue leer el propio manual de usuario de Cytoscape. Y es que ya hace algo más de un año Cytoscape y yo nos vimos las caras por primera vez, fue durante la realización de mi TFM. Y para enseñaros “a muy grosso modo” qué se puede hacer con Cytoscape, qué mejor forma que sea resolviendo, aunque muy resumidamente, el caso práctico al que me enfrenté en aquel momento:

Disponemos de datos de metabolómica de plasma (P) y de tejido cerebral (C) de ratas con una determinada enfermedad y queremos investigar si existen metabolitos en plasma que se pudieran utilizar como biomarcadores de daño cerebral, ya que actualmente la enfermedad tiene un diagnóstico tardío.  Para ello se aplicó un modelo de regresión multivariante de reducción de la dimensión (PLS) donde se utilizaron los datos de plasma como matriz predictiva y los datos de cerebro como matriz respuesta.

Una vez tenemos todos los análisis hechos, el primer paso de todos es generar nuestros ficheros “inputs”. ¡Este es el paso más importante! Y es que en realidad lo más complicado no es utilizar Cytoscape en sí, sino preparar los ficheros con los que vamos a trabajar teniendo en cuenta qué queremos visualizar y cómo trabaja Cytoscape. En resumen, Cytoscape necesita dos ficheros de “input”:

  1. Node Table. Este fichero debe contener información relacionada con los nodos. En nuestro caso los nodos son los metabolitos, tanto de plasma como de cerebro. Por lo tanto, en la primera columna de este fichero tendrá que aparecer el nombre de todos los metabolitos (importante en este caso, ponerle una etiqueta si es de plasma [P] o de cerebro [C]). En las siguientes columnas se puede incluir atributos de cada nodo/metabolito como por ejemplo el nombre del metabolito sin la etiqueta (Metabolito), si pertenecen a plasma o al cerebro (Tejido), el coeficiente del modelo de regresión (CoefB), si están “Diferencialmente expresados” (DE), y todos los atributos que consideremos oportunos.
  2. Network File. En este caso, este fichero debe contener información referente a la relación existente entre los nodos (metabolitos). Que a efectos prácticos puede ser, entre otros, un coeficiente de correlación (Freq) que para que sea más sencillo de utilizar se puede codificar en función de si tiene signo negativo, positivo o es cero (signo). Las dos primeras columnas de este fichero serán los nombres de los metabolitos que estamos comparando (Var1 y Var2), importante de nuevo para este caso las etiquetas de “P_” y “C_”.

En nuestro caso los ficheros tendrían un aspecto como los siguientes:

Una vez tenemos los dos ficheros de datos ya podemos empezar a utilizar Cytoscape.

Para importar nuestros propios datos tenemos que seleccionar File> Import> Network from file. Seleccionamos el fichero deseado y se nos abrirá una ventanita. Aquí tendremos que indicar cuál es nuestro 🟢 Nodo fuente (Source node) y el 🎯Nodo objetivo (Target node).

Al aceptar veremos que se genera la red. En la pestaña de “Edge Table aparecen todos los atributos del fichero que hemos importado. Sin embargo, en la pestaña adyacente, Node table, no aparecen atributos. Por lo que tenemos que importar el fichero de los nodos con sus correspondientes atributos de la misma manera que hemos hecho anteriormente.

Para poder distinguir a simple vista qué metabolitos son del cerebro y cuáles del plasma, vamos a “Style” del menú de la izquierda y en la opción de “Shape”” indicamos que queremos que la forma de los nodos sea en función de la columna Tejido. Entonces ya nos saldrán todas las opciones existentes para esa columna, en nuestro caso C= Cerebro y P = Plasma. A continuación, ya podemos seleccionar cómo queremos que se represente cada tejido. En este ejemplo los metabolitos en plasma (P) y los de cerebro (C) los hemos representado como un rectángulo y como una elipse respectivamente.

Como ya tenemos asociada cada forma al tejido, entonces ya podríamos dejar de utilizar los prefijos/etiquetas de “P_” y “C_” y que aparezca únicamente el nombre del metabolito. Para eso vamos a “Style” del menú de la izquierda y en la opción de “Label”” indicamos que queremos que la forma de nuestra red sea en función de la columna “Metabolito”.

También podemos indicar si los metabolitos están “down o up regulated”: 

De la misma forma, podemos colorear las aristas en función de si los metabolitos están positiva o negativamente correlacionados. 

 Al final la red tiene que quedar lo más legible posible para el lector por ello hay que ordenarla. En la pestaña de “Layout” del menú superior, existen muchas opciones que permite realizar diferentes distribuciones de la red. Al mismo tiempo, también puedes mover los nodos individualmente si seleccionas con el ratón encima de uno de ellos y posteriormente lo mueves hasta donde desees.

Siguiendo todas estas indicaciones al final quedaría una red como la que se muestra a continuación en la que ya solo quedaría exportar la imagen. 

En la imagen se puede apreciar a simple vista biomarcadores candidatos en plasma de daño cerebral (cuadrados morados). Por ejemplo, se puede observar que existe una correlación positiva entre los niveles en plasma de Met_15 y los niveles en cerebro de Met_11.

Esto sería una forma de implementar Cytoscape con tus propios datos (aunque sean poquitos como en este caso). Como vemos, así hemos conseguido integrar los datos (tanto los metabolitos del plasma como del cerebro) y que nos sea más fácil e intuitivo visualizar posibles biomarcadores en plasma de daño cerebral de la enfermedad que estamos estudiando. Para ello, me repito, lo más importante aquí es saber qué quieres hacer con el programa y en función de eso elaborar tus ficheros de input.

Cytoscape ++

Lo que os acabo de mostrar es un ejemplo muy sencillo del uso de Cytoscape ya que este software tiene mil posibilidades gracias a los plugins y a las apps, extensiones de Cytoscape, que incorporan nuevas funciones. Los plugins y apps los puedes descargar desde Cytoscape y generalmente suelen ser gratuitos para fines académicos. Por ejemplo, uno de los plugins que más estoy utilizando últimamente son ClueGo y Clupedia, con el que se pueden realizar, entre otras cosas, análisis de enriquecimiento funcional y visualización de redes como la que se observa a continuación: 

Otro ejemplo de la importancia de Cytoscape en el ámbito científico es el hecho de que Bioconductor ha incorporado un paquete R, “RCy3” que permite comunicarse con Cytoscape. La verdad que es un paquete muy útil ya que permite automatizar los procesos y te facilita la vida especialmente si ya estás trabajando desde R. Además, Cytoscape permite importar datos de repositorios públicos como IntAct, Reactome, WikiPathways, PSICQUIC, etc, con las que puedes trabajar directamente y/o implementarlas en tus estudios. 

Por último, comentaros que Cytoscape es una herramienta que está teniendo una considerable implicación hoy en día en investigaciones científicas en múltiples campos como en el estudio del perfil molecular y las vías implicadas de dos tipos de cáncer cerebralinteracciones genéticas del genoma de la levadura e incluso para estudiar las proteínas humanas con las que interactúa el SARS-COV-2 para la reutilización de fármacos ya aprobados.

Como veis, Cytoscape es una herramienta muy versátil de la que no dejas día a día de aprender, solo hay que ir explorando la gran variedad de posibilidades y servicios que ofrece. En lo personal, tener ciertos conocimientos de Cytoscape me ha abierto bastantes puertas a la hora de establecer colaboraciones en estudios y entender, aunque sea de forma modesta, el increíble mundo de las redes de regulación. Es por eso que espero que este post os haya resultado útil y sobre todo os haya animado a seguir conociendo el mundo de las networks y en concreto de Cytoscape. Si has llegado hasta aquí, seguro que tenéis muchas cosas interesantes que contarme. Por eso os comparto mi contacto para que me déis un poco de feedback y compartáis conmigo todas vuestras dudas e inquietudes con respecto a este post.

image4

Resolución de variantes de significado incierto (VUS) en el estudio de enfermedades

Resolución de variantes de significado incierto (VUS)
en el estudio de enfermedades

Alejandro Mendoza-Alvarez
PhD candidate at Universidad de La Laguna

La aparición de los secuenciadores masivos que permiten leer en paralelo de millones a miles de millones de secuencias o fragmentos del ADN (reads), lo que ha revolucionado el campo de la biología y, especialmente, el de la genética, la cual ha pasado de un ámbito tradicional como es el laboratorio a uno computacional, con la aplicación ineludible de la bioinformática. El desarrollo de estas técnicas de secuenciación masiva de ADN (NGS) ha facilitado enormemente la detección de la variación genética y su estudio en el contexto clínico. Sin embargo, la secuenciación masiva también genera una gran cantidad de información, complicando la detección rápida y sencilla de las variantes genéticas responsables de enfermedades.

Para asistir en el estudio e interpretación clínica de cada una de las variantes genéticas detectadas en la secuenciación masiva, el Colegio Americano de Medicina Genética y Genómica (ACMG) ha establecido un sistema de clasificación para facilitar su asociación clínica. Este sistema se basa en la agrupación de las variantes genéticas en base a 5 clases de patogenicidad: benigna (B), probablemente benigna (LB), variante de significado incierto (VUS), probablemente patogénica (LP) o patogénica (P). Uno de los principales desafíos a nivel mundial sigue siendo resolver el potencial patogénico de una alta proporción de variantes de significado incierto (VUS). 

Desgraciadamente, en la actualidad, la gran frecuencia de variantes que no se decantan por ninguno de los dos lados de la balanza llegan a alcanzar cifras tan alarmantes como un 80% de variantes clasificadas como VUS por estudio de secuenciación masiva, tal y  como ocurre en el caso de los genes BRCA1 y BRCA2, conocidos ampliamente por su asociación con el cáncer de mama y ovarios, entre otros. Llama la atención que, pese a ser dos de los genes más estudiados y secuenciados, la proporción de variantes de significado incierto (VUS) es sorprendentemente alta.

Esta problemática se origina atendiendo a diferentes causas, como la existencia de poca evidencia para clasificar la variante como causal o no, frecuentemente derivada por la ausencia de dicha variante genética en estudios poblacionales en los cuales se suelen reclutar pocos representantes de diferentes etnias, provocando errores en estimación de la frecuencia alélica en dichas cohortes. 

Afortunadamente, la gran extensión de los estudios basados en secuenciación masiva de ADN está permitiendo que la cantidad de información obtenida de cada una de las variantes genéticas detectadas produzca un grado de exactitud mayor en la clasificación de variantes genéticas empleando las guías establecidas por ACMG.

Este sistema de clasificación tiene en cuenta diferentes características de las variantes genéticas, como su frecuencia poblacional, puntuaciones de patogenicidad estimadas por diferentes predictores genéticos (conservación, estabilidad proteica, etc), cosegregación de la enfermedad con la variante heredada de padres a hijos, etc. Todo ello hace que, cuanta más información disponible exista sobre la variante genética en estudio y se integre en este sistema de clasificación, obtengamos una resolución mayor en su clasificación patogénica, siendo precisa y certera, para el desarrollo de un diagnóstico clínico de cualquier enfermedad basado en estudios de secuenciación masiva.

Pero ¿cómo podemos mejorar la clasificación de las variantes genéticas? Actualmente, los investigadores que estudian la asociación de las variantes genéticas con enfermedades, nos recomiendan seguir una serie de pasos para contribuir a la disminución de esta problemática global, que en determinadas ocasiones llega a impedir un diagnóstico clínico certero y aumenta el retraso diagnóstico de manera considerable, llegando incluso a lograr cifras tan altas como ocurre frecuentemente en el angioedema hereditario, una enfermedad rara en la que se han publicado retrasos diagnósticos de más de 50 años en determinados pacientes. Para contribuir a la disminución de esta problemática mundial, los investigadores aconsejan:

Mantener actualizada la información publicada en la literatura relacionada con nuestra enfermedad, así como tener integrados los datos de diferentes repositorios utilizados globalmente.

Pueden tener nuevos datos que aún no hayan sido publicados y que pueden ser incorporados en los estudios de nuestra variante genética.

Actualmente, se han diseñado diferentes repositorios de información de acceso abierto, en las cuales los investigadores pueden registrar las variantes genéticas que estén estudiando y aportar los datos derivados de su investigación con el objetivo de otorgar la máxima información posible y obtener una clasificación precisa de la variante genética.

Como hemos visto, la integración de toda la información disponible sobre cada una de las variantes genéticas permitirá el agrupamiento de las mismas en las clases establecidas por ACMG, lo que a su vez facilitará la interpretación clínica y la asociación con la enfermedad será cada vez más exacta, todo ello con el objetivo de favorecer una rápida detección de la variante causal de la enfermedad y un diagnóstico más rápido y certero que permita prescribir un tratamiento eficaz, mejorando la calidad de vida del paciente.

image2

Resumen del VIII Simposium de Estudiantes de Bioinformática (RSG-Spain) 2021

Resumen del VIII Simposium de Estudiantes de Bioinformática
(RSG-Spain) 2021

Tamara Hernández Beeftink
PhD candidate at Universidad de La Laguna
Luis A. Rubio Rodríguez
PhD candidate at Universidad de La Laguna

El pasado mes de Octubre de 2021 (18 y 19 de Octubre), celebramos nuestro VIII Simposium de Estudiantes de Bioinformática (RSG-Spain) de manera online durante dos días. El objetivo principal de este evento fue buscar y fomentar el debate y la colaboración entre nuestra red, promoviendo también RSG-Spain, el Consejo de Estudiantes y la Sociedad Internacional de Biología Computacional (ISCB). 

El primer día celebramos un evento Meet & Greet, donde presentamos la organización RSG-Spain y los respectivos nodos activos (Barcelona, Granada, Madrid y Canarias) a los asistentes, con el fin de mostrar nuestras principales actividades a nivel nacional y local, así como fomentar la creación de nuevos nodos a lo largo de la geografía española. También, realizamos una Encuesta a todos los jóvenes investigadores que asistieron al evento sobre temas y prácticas de Bioinformática en España, lo que nos brindó una perspectiva general del panorama actual en nuestro país.

Este día también pudimos contar con una Mesa Redonda donde se discutió sobre las tendencias actuales en bioinformática, y tuvimos el honor de contar con eventos divulgativos de gran calidad, como la impresionante charla de Carla Padilla, actual presidenta de RSG-Argentina, que nos habló sobre la Bioinformática en su país. Para favorecer el “networking” y el debate entre los asistentes, se habilitaron diferentes encuentros sociales en las salas proporcionadas por la plataforma AirMeet, las cuales se dividieron en diferentes temáticas tales como: la vida de un doctorando, salud mental durante el doctorado, lenguajes de programación, estadística, machine learning, entre otras.

El segundo día celebramos el Encuentro Científico, contando con charlas muy destacadas, como las ponencias magistrales e inspiradoras de Arcadi Navarro y Laura Furlong. En estas charlas nos expusieron sus puntos de vista y las diferentes formas en las que llegaron a hacer su increíble carrera investigadora de la mano de la bioinformática. Concretamente, el profesor Arcadi es Doctor en Genética por la Universidad Autónoma de Barcelona desde 1998 y durante su carrera se ha centrado sobre todo en las huellas genómicas de los procesos evolutivos, interrogando la variabilidad genómica para comprender cómo las fuerzas evolutivas dan forma a nuestros genomas y cuáles son sus consecuencias sobre la biodiversidad, el envejecimiento y la susceptibilidad a las enfermedades. También contamos con la participación de Nataly Buslón (BIOINFO 4 WOMEN), quien nos habló sobre la perspectiva del género en la investigación.

Para finalizar nuestras charlas magistrales, contamos con la participación de Laura Furlong, Doctora en Biología por la Universidad de Buenos Aires desde 2002. En su investigación, la Dra. Furlong desentraña los mecanismos patológicos de las enfermedades humanas. Para ello, su grupo desarrolla métodos bioinformáticos para análisis de redes y minería de textos, y los aplica para caracterizar enfermedades y efectos adversos de medicamentos. 

Además, durante este día, nuestros estudiantes pudieron presentar sus trabajos científicos; los 10 trabajos con mayor puntuación en la evaluación fueron presentados como comunicaciones orales, y los 18 restantes fueron presentados como póster (de los cuales, 10 fueron además seleccionados como charla rápida). A lo largo del día, los participantes y asistentes pudieron asistir a la sesión de posters online e interaccionar con los ponentes y discutir sobre sus trabajos científicos. Y por último, para finalizar con las dos jornadas de este magnífico simposio, otorgamos premios a la mejor comunicación oral y póster y realizamos las correspondientes conclusiones para cerrar el congreso.

A modo resumen, nuestro VIII Simposium de Estudiantes de Bioinformática ha demostrado ser un punto de encuentro para más de 100 estudiantes y profesionales de bioinformática de España, incluyendo estudiantes del resto del mundo, como India, EEUU, Malasia o Países Bajos. Varios estudiantes compartieron más de 30 de sus magníficos trabajos científicos, incluyendo Tesis, Trabajos de Fin de Máster o de Grado, en formato póster, charlas rápidas y comunicaciones orales. El nivel de las charlas de los estudiantes fue notable y hubo muchas preguntas y discusiones emocionantes, que demuestran que el campo de la bioinformática está más vivo que nunca en nuestro país. Y como ya comentamos anteriormente, contamos con las increíbles charlas magistrales de Arcadi Navarro y Laura Furlong, que brindaron importantes consejos e ideas sobre las carreras académicas en bioinformática. También, la participación de Nataly Buslón y Carla Padilla enriquecieron aún más nuestro simposio, aportándonos unas perspectivas muy interesantes. Todo este éxito no habría sido posible sin todos los ponentes, participantes, asistentes, equipo organizador de RSG-Spain y nuestros patrocinadores: News In Three Lines (NITL), Spanish National Bioinformatics Institute (INB) y International Society for Computational Biology Student Council (ISCB-SC). Asimismo, todo nuestro Simposio ha sido grabado y compartido en nuestro canal de Youtube (ISCB RSG-Spain) ¡por lo que no dudes en suscribirte y ver todo el contenido que te perdiste!. Os esperamos a todos en próximas ediciones, y si tú, que estás leyendo esto ahora, te lo has perdido, no olvides seguirnos en las redes sociales para no faltar al siguiente y enterarte de todas nuestras novedades.

¡Hasta pronto!

RSG-Spain

image2

¿Cuáles son las salidas profesionales de la bionformática?

¿Cuáles son las salidas profesionales de la bioinformática?

Inés Rivero
Ph.D. Student, Centro Nacional de Investigaciones Cardiovasculares (CNIC)

Muchos estudiantes de biociencias habrán escuchado alguna vez la frase “Deberías plantearte una carrera en bioinformática, eso te abrirá muchas puertas en tu carrera profesional.” o “Estudias bioinformática? ¡Qué suerte! Seguro que te será súper fácil encontrar trabajo.”. Y, probablemente, muchos estudiantes de otras áreas científicas habrán escuchado alguna vez la creciente importancia que está teniendo, y tendrá, la bioinformática para el avance del conocimiento biomédico, entre otros campos. Y es que, realmente, cada vez son más los estudios que contienen al menos una predicción o análisis bioinformático entre sus resultados, por lo que no es sorprendente que muchos mentores recomienden a sus alumnos iniciar una carrera profesional en este campo. En mi caso, según me aproximando al final de mi grado en Bioquímica me iba interesando más y más por las técnicas -ómicas y toda la información que se puede sacar de sus datos. Decidí entonces estudiar un máster en análisis de datos -ómicos y no tengo palabras que me permitan expresar cómo de buena fue esa decisión. Pese a que siempre me ha gustado el trabajo en el laboratorio, y apenas tenía ninguna experiencia en programación antes de comenzar el máster, el trabajo computacional me apasionó en seguida y pronto fui ganando interés en temas más estadísticos y matemáticos. Yo tenía muy claro que tras el máster quería realizar un doctorado, pero muchos de mis amigos del máster no tenían tan claro cuál sería su próximo paso en su viaje como bioinformáticos. Esto me llevó a preguntarme, ¿cuáles son las salidas laborales reales de la bioinformática?

Una gran parte de los estudiantes de bioinformática deciden encaminar su vida laboral en la investigación. Este es un mundo apasionante en el que no paras de aprender e innovar, y que requiere de determinación, inteligencia y creatividad. En muchos casos, adentrarse en el mundo de la investigación implica realizar un doctorado, para después trabajar como bioinformáticos senior o investigadores postdoctorales. Si hay suerte, esto les lleva a ser investigadores principales en un centro de investigación o profesores titulares en la universidad. Sin embargo, hay oportunidades también para aquellos que deciden no continuar trepando la pirámide científica, y trabajar como técnicos graduados en bioinformática, administradores de sistemas… 

Pero, ¿qué otras oportunidades hay para los bioinformáticos? En algunos casos resulta más interesante buscar trabajo en la industria. Una de las principales salidas profesionales para bioinformáticos en la industria es en el desarrollo de fármacos, ya que las grandes farmacéuticas están interesadas y tienen recursos para realizar estudios de acoplamiento molecular, más conocido como molecular docking, para desarrollar fármacos más rápido a un coste menos elevado. Además, requieren de profesionales capaces de analizar los datos procedentes de estudios clínicos para tener evidencias de la seguridad y efectividad de los fármacos que desarrollan. Sin embargo, las “Big Pharma” no son el único puerto en el que pueden desembarcar los bioinformáticos con intereses empresariales. También pueden desarrollar trabajos en consultorías, clínicas de estudio o consejo genético o fundar su propia start-up. Además, algunos puestos de trabajo en la industria requieren o valoran que los candidatos tengan un doctorado, por lo que siempre hay oportunidad para una transición desde el mundo de la investigación al mundo de la industria.

Y no solo eso. Los profesionales en bioinformática también son muy importantes en hospitales. En este caso, suelen trabajar en diagnóstico genético o enfermedades infecciosas, permitiendo el diagnóstico adecuado de pacientes con enfermedades hereditarias, o identificando los virus y bacterias que causan diferentes enfermedades. Pese a que su trabajo se realice, en muchos casos, entre las sombras, su presencia en hospitales es esencial. Sin las herramientas informáticas sería imposible encontrar muchas de las mutaciones que causan enfermedades genéticas. Por tanto, es esencial que personal experto en su uso sea parte de la plantilla en el área de diagnóstico genético de un hospital. De forma similar, sin la bioinformática es imposible conocer al milímetro los genomas de los virus y bacterias que nos infectan, y es necesario que haya personal capacitado para su análisis con el fin de detectar y caracterizar nuevas cepas cuanto antes.

Por último, las oportunidades laborales para los bioinformáticos y bioinformáticas no acaban aquí. Las habilidades y conocimientos que se adquieren durante una carrera en bioinformática, como por ejemplo dominar la minería de texto o el machine learning, pueden ayudarnos a encontrar trabajo en otros sectores. Además, otras alternativas como la enseñanza también son posibles. En conclusión: ¡las posibilidades son infinitas!

Si estás pensando en formarte en bioinformática, échale un vistazo a la completísima Guía de formación en España en Bioinformática que han creado nuestros compañeros de Granada, BioinformaticsGRX. Y si ya has comenzado tus estudios en bioinformática, no dudes en unirte a RSG–Spain, el nodo en España del consejo de estudiantes de la Sociedad Internacional para la Biología Computacional (ISCB), completando este formulario. Además, ¡síguenos en nuestras redes de aquí abajo para estar al día de todas nuestras actividades!

IMG_20211115_234837_578

How did I get here? An accidental bioinformatician’s story

How did I get here? An accidental bioinformatician’s story

Eva Tosco-Herrera
PhD candidate at Hospital La Candelaria

When people ask me what I wanted to be as a grown-up when I was little, I honestly do not know what to tell them. For some people, their current job is an existential dream, it is something they were born with, a truthful desire, an inherent asset of their personality. The truth is, that is not my case. And it does not have to be like that for you to become who you want to be. As the title may suggest, nowadays I am, what you could call, a bioinformatician. Not even sure about that yet. I did touch a few computers while growing up, and I did live among nature, trees, mud, dragonflies, and crickets. But I learned very late that both things I loved could be merged into a job I could dedicate my life to, or even that I actually desired to get this type of job.

The first thing that comes to mind is probably second grade. My mother luckily had the time to invest in me, allowing me to learn how to read since I was 3. My teacher was impressed with my reading skills back then and told me I would make a great lawyer since they need to read a lot, very fast. That stuck with me for a bit, and it was not until fourth grade that I learned that a lawyer is supposed to look out for justice at trials, to fight for the weak, to face the powerful. It took me a while to realize that, what I thought, was not the truth. Lawyers could also defend guilty people. It was such a disappointment. But after a while of feeling lost, I began to look for other options. I was not sure of where to start, so I just listened, and I started answering “I really do not know”. 

In fifth grade, my school decided to do a practice class with us and with a few microbiology technicians. They taught us how to streak bacteria on a Petri dish, but not just any bacteria: our own bacteria. From our tongues, our noses, our hands. One of the technicians took a sample from my ear with a Q-tip and stroke the agar with it, leaving zig-zag marks on the gelatin. After two weeks, I vividly remember staring at those white spots on the red agar for the entire hour. I was fascinated. A whole unseen world presented itself in front of my eyes in the most outstanding way, and I could not look away. My perspective of the world changed dramatically and forever. I suddenly figured out that there was so much more than the eye could see.

I used to be very good at subjects such as Spanish, History, even English, Literature… However, I was not that good at Math, or Sciences, Physics, or Chemistry. The first ones bored me to death, and the last ones frustrated me but intrigued me at the same time, as a challenge. That was not reflected in my grades, but I was sure of what I liked, and when Basic Genetics showed up, I immediately thought “this is what I want to do”. I wish I could say I have not doubted along the way, but I would be lying. I have always run around plants, as well as other organisms. When I started my Biology degree, I was almost exclusively interested in Genetics, but other interest began to arise along the way. By the time I had to choose a topic for my final project, my wish was to do research in Botany. I chose not one but three botany-related topics, but all of them became unavailable because other people with higher degrees already had taken them. This led me to choose a biostatistics project as a fourth option, which later turned out to be bioinformatics. I and my project supervisor’s aim was to adapt and enrich an awesome online application to manage Nanopore sequencing data, originally developed by my current colleagues and my current Ph.D. supervisor. I got really interested, really enjoyed the project, and I contacted which is now the research group I work in.

What I really want you to get from my own personal story, that may or may not have been of your interest – sorry if it is the latter -, is that you do not have to get yourself straight from the beginning to be successful, or at least to end up doing what you love. I did not know I was going to end up here, and I have felt lost, lonely, a misfit, a failure. Multiples times. But here I am now, by luck, coincidence, or fate, meeting awesome people, facing problems but solving them soon enough and feeling satisfied, finding out new knowledge, and feeling useful for the greater good. This could also be you in the near future! Life finds a way to get you where you need to be, to learn what you need to learn. Trust the process, be optimistic. You are enough, you are worthy, and you will be whenever you want to be. You can do everything, but do not forget the basics: stay healthy, stay focused overall, but enjoy every minute. Time is limited and each moment will never be the same.

notebooks

Trabajando con notebooks y entornos de trabajo Jupyter en bioinformática

Trabajando con notebooks y entornos de trabajo Jupyter en bioinformática

Héctor Rodríguez
PhD candidate at Hospital La Candelaria
Eva Suárez
PhD candidate at Hospital La Candelaria

A menudo, para el análisis bioinformático trabajamos directamente con consola, editores de texto para nuestros scripts, o entornos como RStudio. Sin embargo, el uso de cuadernos computacionales o notebooks, es cada vez más frecuente. En este artículo, explicaremos brevemente en qué consiste el trabajo con notebooks y sus ventajas, así como algunas herramientas para comenzar a integrar entornos de trabajo basados en Jupyter en nuestro trabajo del día a día.

Concepto y aplicación en bioinformática

Los notebooks son documentos interactivos en los que podemos integrar texto, código ejecutable en diversos lenguajes de programación, así como, tablas o figuras. Su uso se ha popularizado en los últimos años y cada vez es más común la información presentada en este formato y su integración en entornos de formación gracias a la sencillez y las ventajas que proporciona.

Su uso para análisis bioinformático es idóneo en muchos casos, ya que funcionan como un equivalente a los cuadernos de laboratorio tradicionales y nos dan la posibilidad de llevar un seguimiento documentado de nuestro trabajo ya sea código Python/R, comandos de bash o mediante tablas y anotaciones. Además, trabajar con notebooks puede resultarnos más sencillo que el manejo de scripts o consola a la hora de llevar a cabo un análisis determinado y es una buena manera de hacer nuestro análisis más reproducible. 

Existen diferentes herramientas para el desarrollo y el trabajo con Notebooks, a continuación, describiremos las principales características de dos de ellas: Jupyter Lab y Google Colab.

Jupyter Lab

Jupyter Lab es una interfaz de usuario basada en una aplicación web para el manejo de notebooks. La interfaz también permite trabajar con editores de texto, consolas y componentes personalizados por lo que integra en una sola interfaz todos los elementos implicados en el análisis de datos mediante el uso de notebooks.

Desde su lanzamiento, el proyecto Jupyter se ha ido popularizando y más allá de un entorno de trabajo, también funciona como herramienta para la docencia. Hoy en día es común encontrar los contenidos de cursos online o tutoriales en formato notebook y entornos online con todo lo necesario para trabajar desde el navegador.

  • Aprovecha los “Magic commands”. Además de código nativo, podemos ejecutar otro tipo de acciones como ejecución de código R, Perl… o comandos del sistema utilizando un prefijo en la celda de código (Ejemplo: %%bash). El uso de estos Magic commands amplía enormemente la capacidad de un notebook. Puedes encontrar más información en la documentación.
  • Instala kernels para tus lenguajes preferidos. Por defecto, Jupyter Lab permite la creación y ejecución de cuadernos con código Python. Gracias a la instalación de módulos de kernel, podemos crear y trabajar con notebooks en otros lenguajes de manera nativa como R, Scala, bash… Puedes encontrar la lista de kernels disponibles aquí.
  • Prueba las extensiones. La comunidad permanece activa en el desarrollo de extensiones o plugins de Jupyter Lab. Aunque no son necesarias, pueden facilitar múltiples tareas como documentación, monitoreo del sistema, visualización y debugging. Puedes encontrar algunas extensiones interesantes en esta lista.
  • Despliegue de entorno Jupyter Lab con conda. Con la herramienta conda es posible desplegar un entorno de cómputo con las dependencias necesarias y Jupyter Lab de manera sencilla, así que si tienes experiencia con entornos conda, te recomendamos este método (descrito como “project-based” en la segunda parte de este artículo) para probarlo sin instalar los paquetes en el sistema.

Jupyter Lab está disponible para cualquier sistema operativo con Python, y la instalación y uso están ampliamente documentados aquí

Google Colab

Google Colab es una herramienta que ofrece Google para el desarrollo de Notebooks. Es un servicio alojado de Jupyter Notebook que no requiere configuración o instalación previa. Colab nos ofrece un entorno interactivo en línea, que permite la ejecución de código de forma dinámica en la nube. Esta es una de las principales diferencias con otras plataformas como Jupyter Lab, que están pensadas para trabajar en local.

El código se ejecuta en una máquina virtual asignada a la cuenta de Google que use el usuario. No es necesario un ordenador demasiado potente, ya que el procesamiento se realiza desde los servidores de Google. Sin embargo, hay que tener en cuenta algunas, por ejemplo, las máquinas virtuales tienen un ciclo de vida de 12 horas y sus recursos pueden verse limitados cuando hay una alta demanda por parte de los usuarios.

Los cuadernos Google Colab se almacenan en Google Drive, lo que permite compartir, comentar y colaborar en el mismo documento con varias personas, facilitando el trabajo en equipo, además, permite buscar e importar cuadernos desde GitHub. Si queremos iniciarnos en el uso de Colab, Google nos ofrece cuadernos con explicaciones de sus características y ejemplos para su aplicación en ciencia de datos o machine learning. 

2020081610554210327

Mi cuarentena como Bioinformática

Mi cuarentena como Bioinformática

Sarai Varona
Bioinformatician at ISCIII

Me llamo Sarai, tengo 26 años, estudié la carrera de Bioquímica y Biología molecular y estudié dos másters, uno en Bioinformática y otro en Biología Molecular y Biomedicina. Actualmente trabajo en la unidad de Bioinformática del Instituto de Salud Carlos III de Madrid y hoy me gustaría contaros como viví la cuarentena de 3 meses por el SARS-CoV-2 en la que llegué a desarrollar un pipeline con una de las comunidades que yo más admiro en mi campo, nf-core. 

En la Unidad de Bioinformática del Carlos III, donde trabajo, lo que hacemos es dar servicio de análisis a todo el centro, principalmente para datos de secuenciación. Entre las múltiples tareas que realizamos, una de ellas es analizar datos de secuenciación de genomas virales (virus variados, además) para la obtención del genoma consenso de la muestra en cuestión.

Isabel Cuesta (responsable), Sarai Varona y Miguel Juliá, de la Unidad de Bioinformática del ISCIII, donde también trabaja Sara Monzón.

Como todos sabéis, en marzo de 2020 se decretó un estado de alarma debido a una pandemia mundial que ha afectado todo el planeta tierra (por si no os habíais dado cuenta), y nuestro papel como unidad de análisis de secuenciación de uno de los centros de referencia de salud pública en España era obtener el genoma consenso del SARS-CoV-2 a partir de la secuenciación de éste.

En aquel momento no existía un protocolo establecido de como realizar este análisis con los datos de secuenciación de Illumina, pero basándonos en nuestra experiencia previa con otros tipos de virus se nos ocurrió que podíamos utilizar algunas de las herramientas que ya utilizábamos e integrarlas en un único flujo de análisis utilizando un software llamado Nextflow. Ya veníamos utilizando Nextflow con anterioridad y lo que este permite es crear flujos de trabajo escalables y reproducibles, lo que es muy útil en nuestro campo y si no lo conocéis os animo a que lo probéis.

Aprovechando que se iba a celebrar pronto el primer Biohackaton virtual de SARS-CoV-2, nos inscribimos con el objetivo de incluir nuestro flujo de trabajo entre los que se presentaban en el hackaton. Fue en ese momento cuando la comunidad nf-core, una comunidad europea que desarrolla flujos de trabajo estandarizados utilizando Nextflow, dio con nuestro borrador del proyecto de flujo de trabajo en Nextflow para analizar datos de secuenciación de SARS-CoV-2. Estos contactaron con nosotros para ofrecernos una colaboración, de forma que juntos participaríamos en este Biohackaton virtual para desarrollar de forma eficaz y fiable un flujo de análisis capaz de generar genomas consenso a partir de la secuenciación de Coronavirus en Illumina. 

Para mi y mis compañeros de trabajo esta oferta fue todo un orgullo y sin dudarlo aceptamos, sin tener claro lo que ello implicaba ni cual sería la mecánica de trabajo en conjunto con la comunidad de nf-core. El primer paso fue crear un repositorio de github desde el que todos pudiéramos trabajar desde nuestras casas (ya que estábamos confinados) y desde todas partes del mundo (ya que es una comunidad europea en la que participan distintos países). Después creamos un canal de slack en el que poder comunicarnos de forma fluida y dividirnos las tareas que desempeñaría cada uno. Yo pensaba que lo grueso del trabajo ya estaba hecho ya que en nuestro grupo ya teníamos escogidos los programas que incluiría el flujo de trabajo después de nuestra experiencia previa con virus y después de haber contrastado distintos programas con este fin. Sin embargo, no todo sería tan fluido y sencillo como yo esperaba.

La primera semana creando este flujo de trabajo se desarrolló durante la celebración del Biohackaton, de forma que nos pasábamos casi todas las horas del día programando y testando código sin parar, poniéndolo en común con los demás compañeros y realizando un montón de análisis de prueba y error. Como estábamos participando el este evento era de esperar que pasaríamos muchas horas seguidas en la programación y lo aceptamos de buen grado. Sin embargo, el Biohackaton finalizó y nuestro flujo de trabajo no había finalizado del todo, por lo que seguimos trabajando en ello como parte de nuestra rutina laboral de bioinformático.

Aquí es donde empezó la parte más dura, ya que se esperaba de nosotros seguir participando en la programación de este flujo de trabajo al mismo nivel que lo habíamos hecho hasta ese momento, pero además teníamos que seguir con nuestro trabajo habitual que era dar servicio a un centro de sanidad nacional. Afortunadamente seguíamos todos encerrados en casa y no había que perder horas del día en ir a trabajar, ni en ir al gimnasio y a veces no era necesario ni ducharse todos los días (todos lo habéis hecho, no lo neguéis), así que teníamos muchísimas más horas diarias para poder afrontar la carga laboral que se nos vino encima. Trabajábamos fines de semana y festivos mientras veíamos como el resto de la población (o incluso de la comunidad científica no bioinformática) se dedicaba a la repostería, a empezar con el yoga o a aprender un idioma nuevo. Nosotros no podíamos permitirnos ese lujo. 

Había días que teníamos la suerte de poder ir físicamente al centro a poner un secuenciador y teníamos una excusa no solo para salir de casa, sino para poder levantar la cabeza de la pantalla por unos momentos con una excusa que era inevitable y que no se podía posponer. Así pasaron los días y también pasó una cuarentena. Entre risas y lágrimas (sí, también hubo lágrimas), empezamos a entrar en fases de desescalada y el flujo de trabajo estaba ya casi finiquitado, solo quedaba testar que no hubiera errores de código, ya podíamos reservar parte de nuestro día para salir a pasear con el resto de las personas normales mientras el código se testaba, ya lo solucionaríamos al volver de pasear en la hora que nos dejaba el gobierno.

Así, junto con el levantamiento del estado de alarma en España, la primera versión oficial de nuestro flujo de trabajo para la creación de genomas consenso de SARS-CoV-2 vio la luz del sol la primera semana de julio de 2020, lo llamamos viralrecon. Fue una liberación saber que el flujo de trabajo ya había terminado, que por fin en nuestro país se podía salir de tu comunidad autónoma y volver a tu pueblo de origen. Tanto mis compañeros como yo sentimos una sensación de liberación infinita, porque sabíamos que podríamos empezar a dedicar tiempo de nuestro día al ocio otra vez.

A día de hoy, utilizamos este flujo de trabajo de Nextflow para analizar todos los datos de secuenciación de SARS-CoV-2 y además lo estamos utilizando también para generar genomas consenso de otros virus que secuenciamos en el centro. Espero que este testo haya servido a alguien a sentirse identificado, ya que somos de los pocos gremios que en un confinamiento pueden seguir dando el 100% o a descubrir Nextflow o nf-core y que os haya servido en vuestro día a día. Si alguno tiene curiosidad por conocer más sobre este flujo de trabajo, sobre Nextflow o sobre la comunidad nf-core, puede contactar con nosotros o entrar en cualquiera de estas webs: