Thesis 1466
Author/s
  • José Ramón Pichel Campos
Read Center
  • Universidad del País Vasco
Director/s
  • Pablo Gamallo Otero
Doctoral Program
  • Programa de Doctorado en: Análisis y Procesamiento del Lenguaje

Medidas de distância entre línguas baseadas em corpus Aplicação à linguística histórica do galego, português, espanhol e inglês

As línguas têm sofrido alterações ao longo da sua história, tanto interna como externamente, em relação a outras línguas. A fim de medir esta evolução, foram propostas abordagens diferentes a partir de estudos filogenéticos, na dialectologia ou na área da aquisição de segunda língua. No domínio do processamento de línguas naturais, este papel tem cabido à identificação automática das línguas e à distância entre línguas. O principal objectivo desta tese é propor e verificar uma metodologia baseada em corpus que quantifique automaticamente a distância sincrónica e diacrónica entre línguas e/ou variantes linguísticas. Para este fim, utilizámos técnicas já verificadas para identificar línguas, procurando as mais robustas que possam quantificar o quão próximo está um texto de um modelo de língua. Como objectivo secundário, investigámos o papel que a ortografia desempenha como factor de divergência e convergência entre as línguas.
Keywords: Natural Language Processing, Language Distance, Digital Humanities, Historical Linguistics
Canonical link