jueves, 1 de febrero de 2018

¿Cuántas réplicas hacen falta en un RNA-Seq?

¿Cuántos científicos hacer falta para poner una bombilla? Como si de un chiste se tratase titulo esta entrada en la que vamos a tratar un tema espinoso y es el número de réplicas que hace falta realizar en un experimento de RNA-Seq para que sus conclusiones sean estadísticamente asumibles. Si si, ese dato tan temido porque eleva los presupuestos pero que, si uno quiere ser realmente riguroso debería, al menos, conocer.

Klaus B (2015) Statistical relevance—relevant statistics, part I. EMBO J 34: 2727–2730


Pero lo primero deberíamos empezar definiendo qué es un RNA-Seq, a grades rasgos, para los menos duchos en la materia. El RNA es la molécula que lleva la información para la síntesis de las proteínas a los ribosomas, que serán los encargados de montarlas. A todos los efectos serían como el post-it de la célula. Copia un trocito de la información contenida en el DNA y la utiliza para construir las piezas necesarias para el correcto funcionamiento celular. En realizad los distintos tipos de RNA realizan otras funciones, pero la que nos interesa es esta.
Con las modernas técnicas de manipulación, purificación y secuenciación de ácidos nucleicos podemos saber qué RNAs están presentes en un conjunto de células, o incluso en células individuales, en un momento determinado. De esta manera somos capaces de obtener una fotografía fija y, hasta cierto punto, cuantificable, de los niveles relativos de los RNAs que codifican cada una de las proteínas.
Naturalmente, esa foto fija sirve de poco pero tras un análisis un poco más en profundidad somos capaces de extrapolar qué procesos celulares están afectados en una condición respecto a un control, qué diferencia a los distintos tipos de células, a nivel transcripcional, o en qué punto de su desarrollo se encuentra cada uno de los experimentos secuenciados.
Ahora bien ¿cómo de buenas son esas extrapolaciones? ¿Cómo de seguros podemos estar de los genes que definimos como diferencialmente expresados? Pues depende del diseño del experimento. En secuenciación masiva existen dos parámetros fundamentales a la hora de diseñar un experimento y son la profundidad y el número de réplicas. No vamos a entrar en el primer parámetro hoy, pero si en el segundo.

Ahora que ya hemos introducido el tema ¿cuántas réplicas necesitamos para saber que estamos viendo todo lo que hay y que no estamos viendo nada que no sea? En biología se suele tener la tentación de recurrir a la regla de que "con 3 es suficiente" y, por tanto, en experimentos tan caros y "de alta tecnología" como son los que incluyen secuenciación masiva, con 1, o como mucho 2 réplicas, lo tenemos resuelto. Y eso no es así, y mucho menos si pretendemos que nuestro experimento que, en el caso del RNA-Seq, no es completamente cuantitativo, nos permita tener una medida más o menos estable de lo que ocurre en la célula.
¿Cómo haría un buen científico para valorar cuántas réplicas se necesitan? Pues cogiendo un número absurdamente alto de réplicas bien hechas y comprobando cuántas se pueden quitar para que los resultados sigan siendo los mismos. Por suerte el mundo de las publicaciones es tan voraz que podemos encontrar un artículo que hace precisamente eso:

Schurch NJ, Schofield P, Gierlinski M, Cole C, Sherstnev A, et al. (2016) How many biological replicates are needed in an RNA-seq experiment and which differential expression tool should you use? RNA 22: 839–851. pmid:27022035 

En este paper realizan 48 réplicas biológicas (cada una de ellas compuesta de 7 réplicas técnicas) de dos condiciones de S. cerevisiae para compararlas, una de ellas un control y la otra un mutante de deleción de snf2, que presenta un alto número de Genes Diferencialmente Expresados (GDE). Con estos datos aprovechan también para poner a prueba los distintos algoritmos existentes para la detección de GDE.
Tras realizar todas sus comprobaciones, en las que no vamos a entrar porque para eso está el artículo, pero que, bajo mi punto de vista son considerablemente rigurosas y bien hechas, llegan a la conclusión de que se necesitan al menos 6 buenas réplicas (una vez eliminadas las réplicas que no presenten niveles de correlación aceptables con sus compañeras) por cada condición, para poder estar seguros de identificar con el mínimo error GDE con un ratio de al menos 2x.
Si necesitamos reducir ese ratio porque queremos identificar la mayoría de GDE (Ratio > 0.5x) deberemos utilizar al menos 12 réplicas y, si queremos ser aún más exhaustivos en nuestra búsqueda y encontrar la práctica totalidad de cambios de expresión deberemos subir el número de réplicas consecuentemente.
Por supuesto, todos estos números son contando con el valor estadístico oportuno, corregido, y dependiente de cada una de las herramientas, lo que les permite dar una serie de recomendaciones, a su vez, sobre qué herramientas utilizar en cada caso según su mejor o peor comportamiento.

Como veis estos números se alejan mucho de lo que se suele planificar. Es cierto que los experimentos de secuenciación son caros, lo que lleva fácilmente a marcar distancias con la estadística, pero estamos aquí para ser rigurosos. Más caro es llevar a cabo una colisión de partículas en el LHC y se hace correctamente y con controles que permiten llegar a una seguridad estadística de muchos, muchísimos órdenes de magnitud.
Está claro que la vida no es tan precisa como la física, pero es no es excusa, de hecho debería ser la razón por la cuál se intentase ser más estricto aún si cabe en las medidas, en los controles, en la ciencia que se realiza.
En definitiva, no se puede ser cutre como parte de la "prospección" porque a lo único que puede llevar es a seguir grabando en piedra errores que luego costará años eliminar. Por supuesto que no hemos hablado de otros parámetros a tener en cuenta a la hora de diseñar un experimento de éstas características, algo que dejo para el futuro. Lo que si que creo que ayuda este pequeño articulillo, y, sobre todo, el paper que resume, que vuelvo a recomendar encarecidamente su lectura, asimilación y reflexión, a entender un poquito mejor que hay cosas que se están haciendo matemáticamente mal y que está en nuestras manos el ir corrigiendo el camino.

No hay comentarios: