Recuperación de sentencias relevantes y noveles usando modelos y técnicas de recuperación de información

La finalidad de este proyecto es mejorar la eficacia de los sistemas de recuperación de sentencias y no redundancia. Es una tarea en el campo de Recuperación de Información (RI) que supone ir más allá de la labor básica de recuperación de documentos. Una vez que una determinada consulta de usuario recupera un conjunto ordenado de documentos, hay que procesar este ranking identificando las sentencias (o frases) relevantes para la consulta y evitando su repetición. Además, los resultados de investigación obtenidos a nivel internacional hasta la fecha manifiestan claramente la necesidad de mayores esfuerzos de investigación, tanto para detectar las sentencias relevantes como las noveles.

En el contexto de este proyecto de investigación se abordarán aproximaciones basadas en Modelos de Lenguaje ("Language Models"), cuantificación borrosa y reducción de dimensionalidad para resolver el problema de recuperación de sentencias y no redundancia. Cabe esperar que la variedad de las aproximaciones consideradas permita mejorar la efectividad de esta tarea así como favorecer la fertilización cruzada entre las distintas líneas de investigación abordadas.

Objetivos

El objetivo principal del proyecto es profundizar en la tarea de recuperación de sentencias y no redundancia, aumentando el estado del conocimiento que existe actualmente sobre la misma e identificando vías para la mejora del rendimiento, tanto en la recuperación de sentencias relevantes como en el posterior filtrado de redundancia. Este objetivo principal puede ser desglosado en varios subobjetivos:

  • Determinar si los Modelos de Lenguaje Estadísticos pueden aportar beneficios para recuperar sentencias relevantes. El éxito de la aplicación de Modelos de Lenguaje para otras tareas de RI es una baza importante para poder conseguir resultados potencialmente relevantes para el campo en la tarea de novelty.
  • Determinar si los Modelos de Lenguaje pueden aportar beneficios para recuperar sentencias noveles. La novedad de este subobjetivo está avalada por la escasez de trabajo enMLs para determinar redundancia.
  • Determinar si la cuantificación borrosa puede mejorar la precisión en la recuperación de sentencias relevantes.
  • Determinar si la cuantificación borrosa puede ser útil en la detección de sentencias redundantes. Ambos objetivos (O3 y O4) son novedosos pues tampoco se ha llevado a cabo investigación alguna en cuantificación borrosa para el problema de recuperación de sentencias y no redundancia. Son objetivos prometedores pues la cuantificación borrosa se ha revelado recientemente prometedora como mecanismo de emparejamiento para RI.
  • Determinar la eficacia de métodos basados en LSI para la detección de sentencias relevantes y no redundantes. El objetivo es novedoso ya que no se ha aplicado LSI a esta tarea y relevante por los resultados obtenidos por LSI en construcción de resúmenes.