Novas ferramentas para analizar e extraer información de textos en galego, portugués e español

Estimacións recentes teñen determinado que o volume de información xerado pola humanidade dende os albores da civilización ata o ano 2003 equivalería apenas á cantidade de datos que os usuarios de Internet creamos en tan só 2 días (fonte: Cara a unha tecnoloxía multilingüe

O procesamento de linguaxe natural ten múltiples aplicacións, entre as que figuran os tradutores automáticos ou a aprendizaxe de idiomas online. Na actualidade, as técnicas utilizadas neste ámbito atópanse xa nun estado moi avanzado para linguas como o inglés, pero no caso doutras -como o galego, o portugués, ou mesmo o español-, a tecnoloxía dispoñible a día de hoxe é moito máis limitada.

Co gallo de suplir estas carencias, o investigador do CiTIUS Marcos García dedicou a súa tese doutoral ao desenvolvemento dunha serie de ferramentas tecnolóxicas destinadas a mellorar a capacidade de procesamento destas tres linguas, un traballo enmarcado na liña de investigación mixta na que dende hai tempo veñen colaborando o CiTIUS e o Grupo de Gramática do Español da Universidade de Santiago de Compostela (USC).

Os sistemas de extracción aberta permiten analizar a web para obter e organizar automaticamente grandes cantidades de información, o que resulta moi útil á hora de discernir ideas ou mensaxes entre a maraña de datos da rede. Así, por exemplo, os resultados desta tese permiten inferir de xeito moi sinxelo unidades semánticas doadamente recoñecibles, como «Santiago está en Galicia» ou «a idade de Messi é 27 anos», a partir da información dispoñible na web.

O sistema de extracción aberta presentado non só é o primeiro en estar dispoñible para galego, portugués e español, senón que ofrece asemade resultados altamente competitivos cos mellores sistemas en lingua inglesa. Trátase, así, da primeira solución deste tipo dispoñible, un conxunto de ferramentas lingüísticas desenvolvidas baixo unha licenza de software libre, que poden ser descargadas a través da ligazón: http://gramatica.usc.es/~marcos/phd.html#cap2

Computación e linguaxe: unha oportunidade para emprender

A liña de investigación que ampara este traballo deu lugar tamén á creación dunha nova empresa especializada en tecnoloxías da linguaxe: a spin-off do CiTIUS Cilenis Software, creada en 2011 e galardoada o mesmo ano co Primeiro Premio ó mellor Proxecto Empresarial Innovador. En 2012, o empresario e analista económico Marc Vidal adquiriu parte de Cilenis Software, a través da compañía IDODI Labs.

Segundo os responsables do proxecto, Cilenis Software xurdiu como medio para facer viables a nivel comercial os resultados de investigación do grupo; como afirma Pablo Gamallo, director da tese de Marcos García e co-fundador de Cilenis, o que se pretende é «reducir o gap actual entre as ferramentas dispoñibles para procesar a lingua inglesa, e as empregadas para a análise de linguas iberoamericanas».