Exploración del conocimiento semántico en modelos vectoriales: homonimia, polisemia, sinonimia e idiomaticidad

En este proyecto diseñamos metodologías de interpretación y análisis sistemático del conocimiento semántico codificado en los modelos vectoriales en varias lenguas. Nombradamente, nos centramos en la evaluación de la representación del significado (i) de las palabras homónimas, (ii) de palabras polisémicas, (iii) de palabras sinónimas, y (iv) de expresiones multipalabra (MWEs) con diferentes grados de composicionalidad semántica (i.e., expresiones más o menos idiomáticas).

Objetivos

El objetivo del proyecto es explorar el conocimiento semántico que codifican los modelos vectoriales más recientes, y evaluar nuevos métodos para mejorar aquellos aspectos en los que estos sistemas no obtengan resultados satisfactorios. Pretendemos también proporcionar nuevos resultados sobre la interpretación por parte de evaluadores humanos de los cuatro fenómenos semánticos referidos en varios contextos controlados. Entre las alternativas para mejorar el modelado exploraremos, entre otras, estrategias de aprendizaje composicional, el uso de fine-tuning, o la inyección de vectores individuales para las MWEs. Los experimentos y análisis serán realizados en gallego y portugués, castellano e inglés.