Medidas de distância entre línguas baseadas em corpus Aplicação à linguística histórica do galego, português, espanhol e inglês

As línguas têm sofrido alterações ao longo da sua história, tanto interna como externamente, em relação a outras línguas. A fim de medir esta evolução, foram propostas abordagens diferentes a partir de estudos filogenéticos, na dialectologia ou na área da aquisição de segunda língua. No domínio do processamento de línguas naturais, este papel tem cabido à identificação automática das línguas e à distância entre línguas. O principal objectivo desta tese é propor e verificar uma metodologia baseada em corpus que quantifique automaticamente a distância sincrónica e diacrónica entre línguas e/ou variantes linguísticas. Para este fim, utilizámos técnicas já verificadas para identificar línguas, procurando as mais robustas que possam quantificar o quão próximo está um texto de um modelo de língua. Como objectivo secundário, investigámos o papel que a ortografia desempenha como factor de divergência e convergência entre as línguas.

Palabras clave: Natural Language Processing, Language Distance, Digital Humanities, Historical Linguistics