Una metodología semiautomática de anotación de entidades nombradas para la creación de un gold standard

El Reconocimiento de Entidades Nombradas (NER, Named-Entity Recognition) es una tarea del Procesamiento del Lenguaje Natural (NLP, Natural Language Processing) que tiene por objeto la detección y clasificación de entidades nombradas en un corpus textual. Esta tarea ha sido aplicada a múltiples dominios especı́ficos, como pueden ser documentos médicos, jurı́dicos, de aviación, genómica o la extracción de nombres a partir de documentos periodı́sticos. Abordajes más recientes exploran la posibilidad de aplicar técnicas NER a nuevos campos tradicionalmente más alejados de la computación, tales como el análisis literario, dentro del contexto de la llamada lectura distante. En este trabajo describimos el proceso de creación de un corpus multilingüe de 250 entrevistas telefónicas a visitantes de Santiago de Compostela, orientado al análisis de consumos y localizaciones en la ciudad y el Camino de Santiago. Con este propósito, desarrollamos una metodologı́a de anotación semiautomática para entidades de tipo ‘localización’, ‘organización’, ‘persona’ y ‘miscelánea’, empleando la herramienta Linguakit con revisión manual posterior. Este corpus, codificado en XML con esquema XSD propio, servirá de gold standard para el entrenamiento y evaluación de sistemas NER adaptados al dominio de la cultura y el turismo, ası́ como para la geolocalización de los espacios referenciados. El trabajo que proponemos presentar en el congreso se estructurará de la siguiente forma: en primer lugar describiremos las fuentes empleadas para la construcción del corpus, ası́ como el proceso de transcripción y codificación. A continuación, introduciremos la metodologı́a utilizada para el proceso de anotación de entidades nombradas, con el objetivo de construir un gold standard para NER en el ámbito del análisis cultural y el turismo ligado a la ciudad de Santiago de Compostela y el Camino. Finalmente, describiremos brevemente algunas posibilidades de explotación basadas en técnicas de análisis lexicométrico.

keywords: Named Entity Recognition, Corpus linguistics