HPCNLP: Computación de Altas Prestaciones para el Procesamiento del Lenguaje Natural

El Procesamiento del Lenguaje Natural (PLN) está considerado como una de las metodologías más apropiadas para poder estructurar y organizar la información textual accesible a través de Internet. El procesamiento lingüístico de grandes cantidades de texto es una tarea compleja que requiere el uso de varias subtareas organizadas en módulos interrelacionados. Uno de los mayores problemas de las técnicas de procesamiento lingüístico es su alto coste computacional y sus problemas de escalabilidad, lo que las hacen inviables para el análisis de grandes volúmenes (Gigabytes o Terabytes) de documentos. De este modo, el uso de la Computación de Altas Prestaciones (HPC) se hace indispensable si se desea reducir de forma notable los tiempos de cómputo, o mejorar la escalabilidad del sistema, así como en el caso de querer abordar problemas de un tamaño aún mayor. En este proyecto se aplicarán técnicas de paralelización/optimización usando tecnologías para Big Data a prototipos que realizan diversas tareas para el procesamiento del lenguaje natural con el objetivo de integrarlos en una suite de módulos PLN eficiente y escalable. Los nuevos módulos PLN que se van a desarrollar en este proyecto podrán utilizarse en aplicaciones lingüísticas más complejas y de alto nivel que verán así mejorada su eficiencia. Debemos destacar que las aplicaciones de ingeniería lingüística que pueden beneficiarse de estos módulos son, entre otras, la traducción automática, la recuperación de información, la búsqueda de respuestas, o incluso nuevos sistemas inteligentes de vigilancia tecnológica.

Objetivos

Las técnicas de PLN pueden dividirse en dos grandes tipos de tareas interrelacionadas: el análisis del texto, por un lado, y la extracción de la información, por otro. Los procesos de extracción utilizan, en general, texto analizado, y el análisis textual mejora su rendimiento cuando se apoya en información previamente extraída del texto. En el proyecto que proponemos, se aplicarán técnicas y estrategias de paralelización y optimización a tres tareas específicas de PLN. Dos tareas se corresponden con métodos de análisis lingüístico: Reconocimiento de entidades con nombre (NER - Named Entity Recognition) y el Análisis sintáctico de dependencias. La tercera tarea que se abordará forma parte de las técnicas de extracción de información: Extracción de relaciones semánticas entre entidades.

Enlace a la página web del proyecto

<p>El Procesamiento del Lenguaje Natural (PLN) está considerado como una de las metodologías más apropiadas para poder estructurar y organizar la información textual accesible a través de Internet. El procesamiento lingüístico de grandes cantidades de texto es una tarea compleja que requiere el uso de varias subtareas organizadas en módulos interrelacionados. Uno de los mayores problemas de las técnicas de procesamiento lingüístico es su alto coste computacional y sus problemas de escalabilidad, lo que las hacen inviables para el análisis de grandes volúmenes (Gigabytes o Terabytes) de documentos. De este modo, el uso de la Computación de Altas Prestaciones (HPC) se hace indispensable si se desea reducir de forma notable los tiempos de cómputo, o mejorar la escalabilidad del sistema, así como en el caso de querer abordar problemas de un tamaño aún mayor. En este proyecto se aplicarán técnicas de paralelización/optimización usando tecnologías para Big Data a prototipos que realizan diversas tareas para el procesamiento del lenguaje natural con el objetivo de integrarlos en una suite de módulos PLN eficiente y escalable. Los nuevos módulos PLN que se van a desarrollar en este proyecto podrán utilizarse en aplicaciones lingüísticas más complejas y de alto nivel que verán así mejorada su eficiencia. Debemos destacar que las aplicaciones de ingeniería lingüística que pueden beneficiarse de estos módulos son, entre otras, la traducción automática, la recuperación de información, la búsqueda de respuestas, o incluso nuevos sistemas inteligentes de vigilancia tecnológica.</p><p>Las técnicas de PLN pueden dividirse en dos grandes tipos de tareas interrelacionadas: el análisis del texto, por un lado, y la extracción de la información, por otro. Los procesos de extracción utilizan, en general, texto analizado, y el análisis textual mejora su rendimiento cuando se apoya en información previamente extraída del texto. En el proyecto que proponemos, se aplicarán técnicas y estrategias de paralelización y optimización a tres tareas específicas de PLN. Dos tareas se corresponden con métodos de análisis lingüístico: Reconocimiento de entidades con nombre (NER - Named Entity Recognition) y el Análisis sintáctico de dependencias. La tercera tarea que se abordará forma parte de las técnicas de extracción de información: Extracción de relaciones semánticas entre entidades.</p> - Juan Carlos Pichel Campos - Marcos García González, Tomás Fernández Pena, Pablo Gamallo Otero