Aceleran a secuenciación de ADN utilizando tecnoloxías Big Data

Un traballo do CiTIUS e a Fundación Pública Galega de Medicamento Xenómica ([FPGMX](http://www.xenomica.org/)) dá lugar á solución BigBWA, unha ferramenta capaz de reducir drasticamente os tempos de execución do Burrows-Wheeler Aligner (BWA), software de referencia en xenómica.

O aliñamento das cadeas de ADN capturadas polos sistemas de secuenciación é fundamental no estudo do xenoma. (Unsplash / Pixabay / CiTIUS)

Imaxine que está ante unha paisaxe tan extensa que non pode abarcar nunha única fotografía. Se o seu dispositivo permítello, talvez decida capturar a escena desde distintos ángulos para obter unha panorámica que reflicta con maior realismo a súa contorna, pero unha vez concluída a fase óptica, observará como a imaxe final -completamente ensamblada- tardará, polo menos, uns segundos en aparecer: o tempo necesario para procesar toda a información.

A creación dunha panorámica a partir de imaxes adxacentes é só un exemplo menor, que ilustra a crecente demanda de recursos computacionais a pequena escala. Pero onde realmente xogan un papel crucial as tecnoloxías avanzadas de procesamento (Computación de Altas prestacións ou HPC, polas súas siglas en inglés) é en ámbitos nos que se manexan grandes cantidades de datos, como sucede con frecuencia en certas áreas de investigación.

Para os científicos, un dos ámbitos máis esixentes a nivel computacional é o da bioloxía; tanto, que mesmo deu lugar ao xurdimento dunha rama da ciencia coñecida como Bioinformática, encargada de dirimir de que xeito poden axudar os computadores á xestión e análise de datos biolóxicos. A Bioinformática atopa aplicación en moitas e moi variadas disciplinas, pero no que respecta ao tratamento de grandes volumes de datos, un campo de estudo destaca especialmente sobre todos os demais: a xenómica.

Como pezas dun quebracabezas

A secuenciación do ADN é un proceso complexo e custoso, que debe abordarse ao longo de fases sucesivas. Como no exemplo da paisaxe -cuxa captura requiría da toma de varias imaxes para o seu posterior ensamblado-, os sistemas de secuenciación xenética capturan cadeas ou fragmentos de ADN a partir dunha mostra, que máis tarde terán que ser 'aliñados' cun xenoma de referencia para o seu posterior estudo e interpretación.

De entre tódalas fases implicadas na secuenciación do xenoma, o aliñamento é unha das máis custosas a nivel computacional; unha barreira que se manifesta de maneira máis urxente conforme aumenta o número de cadeas de ADN que deben ser aliñadas, podendo alcanzar cifras próximas a millóns, ou mesmo miles de millóns -na actualidade, as tecnoloxías de secuenciación máis punteiras xeran ata 6.000 millóns de lecturas de cadeas de ADN en cada execución-. Procesar un volume de información desa magnitude nun servidor, usando a ferramenta de referencia no campo (coñecida como BWA ou Burrows-Wheeler Aligner) esixe un tempo de execución superior a catro días; unha resposta excesivamente lenta, que levou aos profesionais para demandar solucións para incrementar o rendemento dos alineadores, co obxectivo de obter resultados nun tempo razoable.

Tratando de dar resposta a este desafío científico, os investigadores do CiTIUS presentan agora na revista Bioinformatics a solución BigBWA, unha nova ferramenta que permite aproveitar as vantaxes das tecnoloxías Big Data para incrementar o rendemento das operacións de aliñado acometidas por BWA. Para acadar o obxectivo sérvese de Hadoop, a implementación de código aberto máis exitosa do modelo de programación MapReduce introducido por Google; deste xeito, o programador pode concentrar todos os seus esforzos no desenvolvemento do algoritmo chamado a resolver o problema científico que se propón, xa que o propio Hadoop encárgase de distribuír a carga computacional entre os distintos procesadores ou núcleos (cores) de computación, de forma totalmente automática e transparente ao usuario.

Os resultados demostran que o uso de BigBWA tradúcese nun incremento espectacular da eficiencia. Así, mediante a utilización deste software os investigadores lograron reducir o tempo necesario para aliñar os 6.000 millóns de cadeas de ADN a tan só 8 horas, usando un pequeno clúster de computación (6 servidores). Na práctica, esta mellora supón multiplicar por 12 a velocidade actual de cómputo, un salto cualitativo que pode aumentar moito máis en caso de dispoñer dun maior número de servidores. 

Rápida, robusta e sinxela

A principal vantaxe da ferramenta é que consegue dividir o labor de aliñamento de secuencias de ADN en multitude de procesos independentes que poden executarse ao mesmo tempo -tanto en distintos procesadores como en distintos servidores-. Con todo, o aspecto máis singular do traballo é que non só introduce o paralelismo a nivel de cómputo, senón que presenta tamén solucións de almacenamento distribuído. Unha aproximación claramente innovadora no ámbito da xenómica, que xunto á paralelización do código fai posible reducir drasticamente os tempos de execución.

Por outra banda, BigBWA é tolerante a fallos, o que permite asegurar a correcta finalización das tarefas de aliñamento -mesmo se se producisen erros hardware nalgún dos servidores utilizados durante o proceso-. «É unha solución de software libre que xa está dispoñible para os profesionais, e pode executarse tanto en pequenos servidores como en sistemas de computación de altas prestacións». Para Juan Carlos Pichel, investigador principal do equipo responsable do traballo, «unha vantaxe substancial é que o uso de BigBWA non implica ningún tipo de modificación no código fonte da ferramenta orixinal. Iso significa que calquera futura actualización nos algoritmos BWA seguirá sendo compatible coa nosa solución».