
O congreso internacional EPIA2024 premia 'Carvalho_pt-gl', un innovador modelo xerativo de linguaxe bilingüe para galego e portugués deseñado no CiTIUS
Un modelo xerativo capaz de procesar e xerar contido en galego e portugués, desenvolvido polo CiTIUS no marco do Proxecto Nós, vén de ser galardoado co ‘Best Application Paper Award’ no congreso internacional EPIA2024, marcando un fito para a diversidade lingüística na intelixencia artificial.
O congreso internacional sobre intelixencia artificial EPIA2024, celebrado entre o 3 e o 6 de setembro na localidade portuguesa de Viana do Castelo, vén de recoñecer co Best Application Paper Award o artigo 'A Galician-Portuguese Generative Model'; un traballo liderado desde a Universidade de Santiago de Compostela polo investigador Pablo Gamallo no marco do Proxecto Nós, financiado pola Consellería de Cultura, Lingua e Xuventude da Xunta de Galicia e desenvolvido polo CiTIUS e o Instituto da Lingua Galega da USC (ILG). Nel, o equipo investigador presenta un innovador modelo de linguaxe xerativo baseado nas variantes galega e portuguesa, o que supón un avance significativo na integración destas linguas nos modelos de intelixencia artificial.
O modelo, coñecido como Carvalho_pt-gl, está dispoñible en libre descarga desde a rede, e foi deseñado especificamente para procesar e xerar contido en galego e portugués europeo, dúas variedades lingüísticas estreitamente relacionadas, pero pouco representadas nos actuais modelos multilingües. O equipo de investigación, composto por expertos do CiTIUS (Universidade de Santiago de Compostela), a Universidade de Évora, e a Universitat Pompeu Fabra, utilizou unha arquitectura de GPT con 1.300 millóns de parámetros e máis de 6.000 millóns de palabras balanceadas entre ambas as dúas linguas. Todo un desafío no que participa o centro (cofinanciado pola Unión Europea mediante o Programa Galicia FEDER 2021-2027) enmarcado tamén dentro do proxecto ILENIA (Impulso de la Lenguas en la Inteligencia Artificial) dentro do PERTE 'Nueva Economía de la Lengua' financiado polo Ministerio para la Transformación Digital y de la Función Pública do Goberno de España.
Pablo Gamallo explica que «o modelo foi adestrado no supercomputador Finisterrae III do CESGA» -Centro de Supercomputación de Galicia-, «usando unha estratexia de preadestramento continuo que permitiu adaptar un modelo multilingüe preexistente, o que axudou moito a superar as limitacións de datos que terían xurdido se o adestramento comezase desde cero». O máximo responsable de Carvalho_pt-gl salienta así mesmo que «tras avaliar os resultados obtidos con benchmarks estandarizados» -un conxunto de probas e referencias que se utilizan para avaliar e comparar o rendemento dos modelos de linguaxe- «vemos que mostran un rendemento prometedor, ao tempo que reforzan a importancia de promover a diversidade lingüística nos modelos xerativos».
A concesión do Best Application Paper Award nun congreso da magnitude do EPIA2024 subliña o impacto e a relevancia deste traballo no panorama da intelixencia artificial. O artigo pon en evidencia a necesidade de desenvolver tecnoloxías inclusivas e multiculturais que respecten a diversidade lingüística, achegando solucións innovadoras para linguas minoritarias ou menos representadas como o galego e o portugués.
Xunto a Pablo Gamallo, no equipo de Carvalho_pt-gl participaron tamén Pablo Rodríguez, Susana Sotelo, Silvia Paniagua, Daniel Bardanca, José Ramom Pichel e Senén Barro (CiTIUS, Proxecto Nós), así como Daniel Santos, Nuno Miquelina, Daniela Schmidt, Vítor Nogueira e Paulo Quaresma (Universidade de Évora), e Iria de-Dios-Flores, (Universitat Pompeu Fabra).
Sobre EPIA
O encontro EPIA (Encontro Português de Intelixência Artificial) é un congreso científico internacional que se celebra anualmente, e centra os seus esforzos nos últimos avances e aplicacións da intelixencia artificial. Organizado pola Asociación Portuguesa para a Intelixencia Artificial (APPIA), o evento reúne a investigadores e expertos de todo o mundo para compartir coñecementos, discutir investigacións innovadoras e promover colaboracións en diversas áreas da IA. A edición de 2024 tivo lugar do 3 ao 6 de setembro, consolidándose como un dos encontros máis importantes do ámbito no sur de Europa.