Nace en la USC un nuevo ‘Carballo’, el primer modelo de lenguaje de gran escala de la historia para el gallego

CiTIUS e ILG (Instituto da Lingua Galega) presentan el primer modelo lingüístico de Inteligencia Artificial para el gallego: un paso histórico en el marco del ‘Proyecto Nós’, que permitirá el desarrollo de herramientas tecnológicas y sistemas inteligentes creados específicamente para la lengua propia.

El Proyecto Nós, que desarrollan el CiTIUS (Centro Singular de Investigación en Tecnologías Inteligentes) y el ILG (Instituto de la Lengua Gallega) acaba de anunciar la creación de Carballo: un modelo de lenguaje de gran escala de alta calidad en gallego, que permitirá la creación de nuevas herramientas y aplicaciones de IA generativa para la lengua propia de Galicia.

Carballo es un modelo de lenguaje de gran escala, el mayor creado nunca para el gallego. Se trata de un modelo conocido como fundacional, por ser la pieza básica (y esencial) para construir herramientas versátiles y de muy alta calidad mediante IA generativa con tecnología lingüística, como chatbots, traductores o correctores automáticos.

Tal y como sucede con otros modelos fundacionales, Carballo necesita aún pequeñas adaptaciones técnicas para convertirse en un sistema de diálogo con el que poder mantener una conversación fluida y ofrecer respuestas automáticas con una interacción sencilla e intuitiva.

Sin embargo, haciendo una analogía con la IA generativa más conocida en la actualidad en todo el mundo (ChatGPT, propiedad de la compañía OpenAI), es importante señalar que la herramienta resultante (Chat) no habría existido sin el modelo fundacional que lo sustenta (GPT). Los modelos fundacionales no están adaptados, ni afinados, mediante instrucciones dirigidas a la resolución de tareas específicas, y por eso no están diseñados para que el público general los utilice directamente. No obstante, estos modelos suponen un paso indispensable hacia el desarrollo de aplicaciones de IA disruptiva en el campo de la lingüística, tal y como las conocemos ya en la actualidad.

En las profundidades de Carballo

Carballo es fruto de dos proyectos de investigación: Nós, impulsado por la Xunta de Galicia, e ILENIA, promovido por el Ministerio para la Transformación Digital y de la Función Pública para el impulso de todas las lenguas oficiales del Estado. En este sentido, el modelo gallego está basado en Flor1.3, el modelo homólogo desarrollado previamente para el catalán en el marco del proyecto AINA-ILENIA, que se desarrolla en el Barcelona Supercomputing Centre (BSC-CNS).

Carballo cuenta con una arquitectura GPT de 1.300 millones de ‘parámetros’. O lo que es lo mismo: 1.300 millones de valores ajustados a lo largo de un proceso de entrenamiento a partir de un corpus de textos, encaminado a lograr que el modelo se desarrolle con una alta competencia en el uso del gallego; su entrenamiento fue un gran desafío computacional, siendo necesaria la colaboración del CESGA (Centro de Supercomputación de Galicia), que cuenta con el segundo superordenador más potente de todo el territorio nacional.

Para el entrenamiento de Carballo se usó un corpus masivo de textos en gallego, llamado CorpusNós, formado por aproximadamente 2.100 millones de palabras: el mayor corpus textual en gallego existente hasta el día de hoy. Una parte significativa de este corpus fue elaborada en el contexto del propio Proyecto Nós, en virtud de numerosos convenios y acuerdos de cesión con empresas y organizaciones abastecedoras de datos textuales. Así, en este ciclo de desarrollo cooperativo desde los datos ‘en bruto’ han participado medios de comunicación como NósDiario, PrazaPública o la CRTVG; las editoriales Galaxia y Laiovento; y diversas instituciones públicas, como el Parlamento de Galicia, el Consello da Cultura Galega, las diputaciones de A Coruña y de Lugo o la Real Academia Gallega, entre muchas otras.

Recursos libres y gratuitos

El proyecto ILENIA, impulsado por el Ministerio para la Transformación Digital y de la Función Pública, tiene como objetivo generar recursos digitales que permitan desarrollar aplicaciones multilingües en las diferentes lenguas oficiales del Estado. Junto a la USC (Nós, gallego) y el BSC-CNS (AINA, catalán), en el proyecto participan también los centros CENID (proyecto VIVES, valenciano) e HiTZ (proyecto NEL-GAITU, euskera). El modelo fundacional Carballo para el gallego es un paso más en esta estrategia de disponer de las capacidades científico-tecnológicas para no depender de grandes corporaciones ajenas a la realidad social y cultural de Galicia, creando recursos abiertos y libres para que otras empresas e instituciones puedan desarrollar tecnologías lingüísticas en gallego de amplio interés social, e incluso económico. Se trata, en suma, de ayudar a crear un tejido empresarial dinámico que crezca con los últimos avances de la inteligencia artificial y que gire en torno a la lengua gallega, potenciando también las relaciones con el ámbito lusófono y, de este modo, con el mercado lingüístico del portugués, próximo a los 300 millones de hablantes. Cabe subrayar que, junto a Carballo, se ha desarrollado también en colaboración con la Universidad de Évora, el primer modelo fundacional gallego y portugués, Carvalho, con el objetivo de fortalecer la lengua gallega mediante la inclusión del portugués europeo.

Carballo se ha publicado en abierto, a fin de que tanto personas expertas como empresas de software puedan utilizar el modelo para desarrollar nuevos productos, hacer ajustes o incluso integrar su uso en aplicaciones de utilidad para el público general. Desde el CiTIUS se remarca el hecho de que Carballo ha sido desarrollado «conforme a las líneas maestras que guían la ‘IA Confiable’», un paradigma de Inteligencia artificial ‘responsable’ alineado con los principios TrustWorthy -‘digno de confianza’- recogidos en el Reglamento Europeo de IA, la primera ley de inteligencia artificial del mundo, aprobada recientemente por el Parlamento Europeo. Esta iniciativa se materializó, además, bajo la cofinanciación de la Unión Europea, a través del Programa Galicia FEDER 2021-2027.

Por lo que respecta al Proyecto Nós, el equipo responsable de Carballo continúa trabajando en la mejora de la calidad del modelo, así como en el incremento del tamaño de nuevos modelos fundacionales y su adaptación a la resolución de múltiples tareas, tal y como hacen ya herramientas comerciales de uso extendido como ChatGPT. Por ahora ya está disponible un demostrador que incluso permite un uso básico del modelo, junto con algunos ejemplos preconstruidos.