Defensa de Tese: «A identificacão e referenciacão de entidades geográficas mencionadas: o caso da 'Peregrinação', de Fernão Mendes Pinto»

As entidades xeográficas mencionadas son unha das principais clases de entidades mencionadas. Un problema ocorre cando a entidade xeográfica é identificada no texto, mais non hai coordenadas para localizala. Esta tese propón un modelo semántico como solución.

As entidades son divididas en dous grupos segundo um criterio epistemolóxico: aquelas que teñen coordenadas coñecidas e as que non. Peregrinação, un extenso relatorio escrito por un diplomático na Asia no século dezaseis, serve de caso de estudo. Extráese manualmente unha lista de entidades xeográficas mencionadas e coméntase a partir da análise crítica e comparativa das descricións encontradas no corpus, a bibliografía relacionada e a xeovisualización das áreas relevantes en bases de datos e programas xeográficos. Esta lista é tamén usada para avaliar solucións automáticas de anotación e xeorreferenciación.

A anotación é examinada en tres fases: coincidencia de expresións, optimización de resultados con unha ferramenta NERC e proceso de automatización completo. Para a xeorreferenciación, as entidades con coordenadas coñecidas son procuradas nunha base de datos aberta de ámbito global de onde se extraen datos geográficos que son adicionados a unha base de datos relacional local. As referencias relativas son solucionadas para todas as entidades.

O problema de atribución do tipo xeográfico lígase ao de creación dunha taxonomia. Con esta finalidade, avalíase a extracción automática de termos: a combinatoria de análise sintáctica, medida TF-IDF e validación con recursos externos conseguiu os mellores resultados. Explórase o aprendizado de máquina con exemplos na procura de relacións entre entidades e tipos xeográficos, con resultados significativos para aquelas entidades de frecuencias mais altas.

As entidades son instanciadas nunha ontoloxía para organizar as relacións. Finalmente, extráese un índice con unha definición estructurada para cada entidade, as súas ocorrencias no corpus, nome contemporáneo e coordenadas cando dispoñíbeis, e relacións con outras entidades para mais desenvolver a referencia relativa.