Investigadores do CiTIUS crean 'Perldoop', unha solución de software libre que acelerará o procesamento de textos e documentos publicados na web

Un equipo de investigadores do CiTIUS, formado por expertos nas áreas de Computación de Altas Prestacións (HPC) e Procesamento de Linguaxe Natural (PLN) conseguiu desenvolver unha ferramenta que permite adaptar automaticamente aplicacións para o procesamento de textos e documentos a modelos de computación paralela, para a súa execución en clústeres multi-core, o que reducirá notablemente os tempos de execución e permitirá traballar con volumes de datos moi superiores aos que se manexan na actualidade.

O gran desafío dos datos online

A inxente cantidade de información que se incorpora diariamente a Internet non para de medrar. Estímase que en só 24 horas xeramos preto de 2,5 trillóns de bytes (2,5 Exabytes), ou o que é o mesmo: preto de 27 GB por segundo, o equivalente a unha tempada completa de Xogo de Tronos en Alta Definición (HD). Para comprender a magnitude da cifra, abonda con sinalar que o 90% dos datos dispoñibles actualmente en todo o mundo foron creados apenas ao longo dos dous últimos anos.

Desta enorme cantidade de datos (agrupados baixo o anglicismo Big Data), só o 5% se pode considerar información estruturada; o 95% restante (que está composto por textos, principalmente) non conta con ningún tipo de organización nin estrutura, o que representa un serio problema á hora de acceder e xestionar toda a información dispoñible.

O traballo realizado polos investigadores do CiTIUS facilitará este labor, xa que os resultados obtidos farán posible a análise dos datos dunha forma máis sinxela e eficiente. A súa proposta baseouse no deseño dun novo sistema que permite transformar o software usado para o Procesamento da Linguaxe Natural (habitualmente programado na linguaxe informática Perl, e executada de xeito secuencial) nunha solución compatible coas tecnoloxías Big Data.

Con só introducir unhas etiquetas na aplicación orixinal, esta ferramenta de tradución permite ao programador converter automaticamente todo o seu código Perl en código Java adaptado ao paradigma MapReduce, habilitándoo así para a súa execución nun clúster (é dicir, permitindo a súa execución simultánea en múltiples cores ou nodos de computación). Deste xeito, lógrase multiplicar a velocidade de cómputo por un factor proporcional ao número de procesadores dispoñibles (por exemplo: se se dispón de 1000 procesadores, o código resultante será, no caso ideal, aproximadamente 1000 veces máis eficiente cá a solución secuencial).

'Perldoop', a ferramenta de código aberto

Outra característica salientable desta investigación, que deu lugar á ferramenta de tradución Perldoop, é que os resultados se fixeron públicos baixo unha licenza de software libre, co obxectivo de que estea a disposición do maior número posible de usuarios e profesionais. Como explica o profesor Juan Carlos Pichel, investigador principal e responsable do proxecto, a decisión tomouse porque «o desenvolvemento de solucións Big Data para o Procesamento da Linguaxe Natural» (PLN) «só está, neste momento, ao alcance das compañías máis potentes,». Coa solución proposta, e uns coñecementos mínimos de programación, será posible converter calquera código programado en linguaxe Perl a unha solución capaz de funcionar nun clúster de computación.

Entre as principais vantaxes desta nova solución destaca especialmente a súa versatilidade, xa que se trata dunha ferramenta de propósito xeral; grazas a iso, poderán beneficiarse aplicacións de eidos tan diversas como a tradución automática, a análise de información en blogs, ou mesmo o procesado de datos xenéticos.