Conferencia: 'Evaluación Humana de Alta Calidad de Textos Generados'

Evaluar la calidad de los textos generados por modelos de lenguaje de gran tamaño modernos es difícil. En esta charla, discutiré algunos desafíos generales de evaluación y luego me centraré específicamente en el papel de las evaluaciones humanas. Las evaluaciones humanas son la mejor manera de evaluar aspectos más sutiles de los LLM, como la idoneidad de la tarea y el impacto en el mundo real, pero solo si se realizan de manera rigurosa. Resumiré nuestro trabajo en replicar e identificar debilidades en las evaluaciones humanas existentes y en diseñar protocolos de evaluación mejorados. Concluiré con consejos sobre cómo realizar evaluaciones humanas de alta calidad.

Sobre el ponente

Ehud Reiter es Profesor de Ciencias de la Computación en la Universidad de Aberdeen y fue anteriormente Científico Jefe de Arria NLG (una empresa derivada que cofundó). Ha trabajado en Generación de Lenguaje Natural durante 35 años, y en los últimos años se ha centrado en la evaluación de la generación de lenguaje; también tiene un interés de larga data en aplicaciones de atención médica. Es uno de los investigadores más citados y respetados en NLG, y sus premios incluyen un premio INLG Test of Time por su trabajo en datos a texto. Escribe un blog de gran lectura sobre NLG y evaluación (ehudreiter.com)