Conferencia: 'Evaluación Humana de Alta Calidade dos Textos Xerados'

Evaluar a calidade dos textos xerados por modelos de linguaxe grandes modernos é difícil. Nesta charla, discutirei algúns retos de avaliación xeral e despois centrarémonos especificamente no papel das avaliacións humanas. As avaliacións humanas son a mellor forma de avaliar aspectos máis sutís dos LLM, como a adecuación á tarefa e o impacto no mundo real, pero só se se realizan de maneira rigorosa. Resumirei o noso traballo na replicación e identificación de debilidades nas avaliacións humanas existentes e no deseño de protocolos de avaliación mellorados. Concluirei con consellos sobre como realizar avaliacións humanas de alta calidade.

Sobre o ponente

Ehud Reiter é profesor de Ciencia da Computación na Universidade de Aberdeen e anteriormente foi Científico Jefe de Arria NLG (un spinout que cofundou). Leva traballando na Xeración de Linguaxe Natural durante 35 anos e nos últimos anos centrouse na avaliación da xeración de linguaxe; tamén ten un interese de longo prazo nas aplicacións no sector sanitario. É un dos investigadores máis citados e respeitados en NLG, e os seus premios inclúen un premio INLG Test of Time polo seu traballo sobre datos a texto. Escribe un blogue moi lido sobre NLG e avaliación (ehudreiter.com)