BigNLP: Aproximando la Computación de Altas Prestaciones a las Tecnologías Big Data: Aplicación al Procesamiento del Lenguaje Natural

El procesamiento lingüístico de grandes cantidades de texto es una tarea compleja que requiere el uso de varias subtareas organizadas en módulos interrelacionados. Uno de los mayores problemas de las técnicas de procesamiento lingüístico es su alto coste computacional y sus problemas de escalabilidad, lo que las hacen inviables para el análisis de grandes volúmenes (Gigabytes e incluso Terabytes) de documentos. Por otro lado, cabe reseñar que la filosofía de los enfoques más recientes de la lingüística de corpus se basan en la "Web As Corpus", línea de investigación donde se postula que con más datos y más texto se obtienen mejores resultados.

Por esta razón, consideramos que la computación de altas prestaciones y el uso de estrategias orientadas a Big Data encajan de forma natural como solución a la limitada eficiencia computacional de los módulos para el procesamiento lingüistico. No obstante, la relativa simplicidad modular de los procesos, así como la clara independencia de las unidades lingüísticas de entrada (frases, párrafos, textos...), son factores a tener en cuenta que pueden facilitar la integración de los módulos de PLN en el contexto de los sistemas computacionales de altas prestaciones mediante el uso de tecnologías Big Data.

Objetivos

El objetivo principal del proyecto será el de desarrollar un conjunto de nuevas herramientas y soluciones para procesamiento Big Data, lo que va a permitir integrar en una suite paralela y escalable un conjunto de módulos multilingües para el procesamiento del lenguaje natural. Esta suite debe procesar grandes cantidades de texto en tiempos de ejecución reducidos y, al mismo tiempo, hacer un uso eficiente de las plataformas hardware de altas prestaciones que se consideren, prestando especial atención a las arquitecturas heterogéneas. En concreto, se van a considerar módulos para la Extracción de Términos Multipalabra, Análisis Sintáctico, Extracción de tripletas, Análisis de Correferencia y Análisis de sentimientos. Debemos destacar que los nuevos módulos PLN que se van a desarrollar en este proyecto podrán utilizarse en aplicaciones lingüísticas más complejas y de alto nivel como la traducción automática, la recuperación de información, sistemas de vigilancia tecnológica, etc. Asimismo, las herramientas generadas como fruto de las investigaciones del proyecto serán de propósito general y, por tanto, podrían aplicarse a códigos o aplicaciones provenientes de áreas diferentes a la del procesamiento del lenguaje natural.