DeepR3.gal: Reducir, Reutilizar, y Reciclar modelos grandes para desarrollar tecnologías del lenguaje responsables y verdes

El lenguaje es la herramienta más eficiente y usada por los humanos para transmitir información. La mayor parte de la información digital disponible contiene datos no estructurados en forma de documentos en múltiples idiomas, lo que representa un desafío para cualquier organización que quiera explotar y procesar esta información. El procesamiento del lenguaje natural (PLN), que incluye la comprensión (NLU) y generación (NLG) automáticas del lenguaje, es uno de los principales retos de la inteligencia artificial y tiene un impacto económico de rápido crecimiento en la transformación digital actual. El PLN está en el corazón del software que procesa la información y explota la gran cantidad de datos contenidos en la web, las redes sociales, etc. A pesar de sus impresionantes capacidades, los modelos de lengua pre-entrenados presentan serios problemas desde las perspectivas de investigación, ambiental y ética. El principal objetivo de investigación del proyecto DeepR3 es el avance en el estado del arte de la tecnología Deep Learning (DL) para NLU y NLG mediante (i) el desarrollo de métodos eficientes para extender a nuevos dominios, géneros e idiomas los modelos existentes para los idiomas oficiales de España (castellano, catalán, euskera y gallego) e inglés; (ii) explorar formas novedosas de pre-entrenar y ajustar modelos de lengua de una manera eficiente, reduciendo así la huella de carbono asociada a entrenar dichos modelos; (iii) abordar las tareas de NLU mediante la generación de texto; (iv) abordar la explicabilidad de los modelos de lengua basados en DL mediante tareas de NLG; (v) desarrollar técnicas eficientes que reutilicen y reciclen modelos pre-entrenados para la traducción automática (TA); (vi) aplicar las técnicas desarrolladas para mejorar el estado del arte en PLN; (vii) desarrollar nuevos conjuntos de datos de evaluación para analizar el progreso hacia un PLN responsable; (viii) generar interés científico en el proyecto mediante la organización de competiciones internacionales de evaluación; y (ix) desarrollar una serie de aplicaciones de dominio avanzadas basadas en contenido para los idiomas del proyecto, en múltiples sectores y dominios.

El subproyecto DeepR3.gal tiene como objetivos específicos: (i) definir (y verificar el cumplimiento de) directrices y requisitos para el desarrollo de un PLN responsable con perspectiva ELSEC (Ética, Legal, Socioeconómica y Cultural); (ii) definir nuevas métricas para la evaluación intrínseca y extrínseca de las tareas de PLN; (iii) diseñar un conjunto de experimentos y datos para evaluar las capacidades lingüísticas de los modelos de lengua; y (iv) diseñar, implementar y validar sistemas de NLG basados en DL para meteorología y salud que reutilizarán datos, corpus, know-how y modelos pre-entrenados en cuanto a operaciones de pronóstico del tiempo, información sobre el índice de calidad del aire, y enfermedades cardiovasculares y neurodegenerativas. El reto principal es la generación de informes y alertas, con énfasis en las tareas de explicabilidad y evaluación. Modelos monolingües (enriquecidos con TA) y multilingües serán evaluados por expertos (meteorólogos o personal médico) y usuarios finales no solo en gallego sino también en inglés, castellano, catalán y euskera, en colaboración con el resto de subproyectos. CiTIUS-USC liderará un Panel sobre PLN responsable (WP1), WP5 (Evaluación) y WP6 (Aplicaciones y Casos de Uso) y participará activamente en el resto de WPs.

Este proyecto DeepR3 (TED2021-130295B-C33) ha sido financiado por MCIN/AEI/10.13039/501100011033 y por la Unión Europea “NextGenerationEU”/PRTR.