Del ‘Dr. Google’ a ChatGPT: ¿son fiables las respuestas de la red a preguntas sobre salud?

Un estudio publicado en la revista científica ‘NPJ Digital Medicine’, del grupo ‘Nature’, analiza el grado de veracidad de las respuestas que se obtienen en Internet ante dudas relacionadas con la salud, ya sea a través de buscadores convencionales o herramientas de Inteligencia Artificial.

¿Podemos confiar en la información que nos devuelven los buscadores de contenido más populares (como Google o Yahoo), o incluso los grandes modelos de lenguaje (como ChatGPT), cuando acudimos a Internet a resolver dudas sobre salud?: la ciencia lo está investigando. Una de las últimas contribuciones en este terreno acaba de ver la luz en la revista NPJ Digital Medicine, propiedad del prestigioso grupo editorial Nature. En ella, un equipo de expertos en Recuperación de Información, Minería de Textos y Computación de Altas Prestaciones del CiTIUS (Centro Singular de Investigación en Tecnologías Inteligentes de la Universidade de Santiago de Compostela), ha seleccionado una muestra de buscadores web y modelos de inteligencia artificial (IA) para analizar el comportamiento de estos sistemas ante las consultas médicas realizadas por el público general.

El trabajo plantea una duda razonable en el contexto actual: ¿resulta más fiable buscar información sobre síntomas médicos en un buscador tradicional, o hacerlo a través de una inteligencia artificial conversacional? «Antes hablábamos del ‘Dr. Google’», señalan los autores. «Ahora, se suman las IAs: queríamos saber hasta qué punto estas herramientas proporcionan respuestas médicas correctas, qué tipo de errores cometen y cómo podemos combinarlas para sacar lo mejor de cada una».

Google o ChatGPT: ¿quién responde mejor?

El estudio ha evaluado el rendimiento de cuatro motores de búsqueda tradicional (Google, Bing, Yahoo y DuckDuckGo) y siete modelos de IA conversacional, entre los que destacan sistemas de propósito general como ChatGPT y LLaMA3, o MedLLaMA, un modelo entrenado específicamente para proporcionar respuestas a preguntas médicas. Los investigadores midieron la capacidad de todas estas tecnologías para ofrecer respuestas médicas correctas ante un conjunto de consultas estandarizadas, sirviéndose para ello de una batería de preguntas médicas reales.

«Entre los hallazgos más relevantes del estudio», apunta Marcos F. Pichel, primer autor del trabajo, «se observa que los motores de búsqueda tradicionales ofrecen entre un 60% y un 70% de respuestas correctas dentro de los veinte primeros resultados, aunque muchas de las páginas recuperadas son irrelevantes o no aportan información clara para resolver la duda médica». Por lo que respecta al uso de IAs, el investigador postdoctoral del CiTIUS (un centro cofinanciado por la Unión Europea a través del Programa Galicia Feder 2021-2027) reconoce un mayor porcentaje de aciertos, aunque alerta de que su uso no está exento de riesgos: «las inteligencias artificiales conversacionales presentan una tasa de acierto superior, que oscila entre el 80% y el 90%, pero… pueden incurrir en un problema característico de este tipo de sistemas: la generación de respuestas falsas expresadas con gran seguridad, lo que conocemos como alucinaciones». El análisis de errores realizado a lo largo del estudio ha permitido agrupar los fallos en tres grandes categorías: aquellos que contradicen el consenso médico establecido («los más preocupantes»); los que surgen de una mala interpretación de la IA ante la pregunta formulada (normalmente, porque le falta el conocimiento básico sobre cómo funcionan las cosas en el mundo real, lo que los humanos solemos llamar sentido común); y los que dan lugar a respuestas demasiado vagas o imprecisas que, en la práctica, no proporcionan una ayuda real a quien lo necesita.

Otro de los autores, Juan Carlos Pichel, subraya la importancia del modo en que se formulan las preguntas: «Los modelos son muy sensibles al contexto», afirma, señalando que un prompt (mensaje de consulta) bien diseñado puede mejorar mucho la respuesta. Aunque también podría ocurrir lo contrario: «una pregunta ambigua genera respuestas peligrosas», afirma el catedrático en Arquitectura y Tecnología de Computadores de la USC. El estudio evalúa distintos niveles de contexto, lo que permite observar cómo la calidad de la respuesta varía según el tipo de prompt utilizado. «Uno de los riesgos más serios que detectamos con el uso de las IAs es que, si no entienden bien la pregunta o carecen de contexto suficiente, pueden ofrecer consejos poco seguros», advierte. «Y lo más preocupante es que lo hacen con una gran asertividad, lo que puede inducir errores fatales, con consecuencias directas sobre la salud de las personas». El trabajo abunda en la idea de que la manera en la que se formula la pregunta tiene un impacto crucial en la calidad de la respuesta. «Una misma IA puede dar el salto de equivocarse a acertar, simplemente reformulando el _prompt_», concluye Pichel.

Buscadores vs. IAs: la unión hace la fuerza

Para David Losada, catedrático de Ciencia de la Computación e Inteligencia Artificial, una parte clave del trabajo es la que explora la manera de enriquecer las IAs con resultados obtenidos por motores de búsqueda, empleando para ello técnicas de generación aumentada por recuperación (más conocidas como RAG - Retrieval-Augmented Generation, por sus siglas en inglés). «Inyectar resultados web en el prompt permite a IAs más ligeras, menos costosas de entrenar y por tanto, más eficientes, razonar a partir de información externa y actual para generar respuestas acertadas, sin necesidad de tener toda la información pre-almacenada en sus parámetros. Es una estrategia muy prometedora para sistemas médicos asistidos por IA, ya que presenta un horizonte de futuro seguro y sostenible», afirma Losada.

«Los resultados de nuestro trabajo muestran que las IA conversacionales suelen ofrecer respuestas más precisas y enfocadas que los buscadores, pero también pueden incurrir en errores graves», explica David Losada. «El problema de los motores de búsqueda es que devuelven mucha información irrelevante o ambigua. La IA, por el contrario, te ofrece una única respuesta, que puede ser buena... o estar completamente equivocada».

El estudio concluye que tanto buscadores como IAs tienen potencial para ofrecer información médica útil, pero requieren de un uso informado: «nuestro mensaje no es elegir entre uno u otro, sino aprender a usarlos bien y saber cuándo desconfiar». Por ello, los autores insisten en la necesidad de formación, tanto para el público general como para profesionales sanitarios. «No se trata de prohibir ni de sustituir, sino de comprender cómo funcionan estas tecnologías y aprender a sacarles partido de forma crítica e informada. En el mejor de los casos, tanto buscadores como IAs cometen entre un 10 y un 15% de errores, y en temas médicos, ese margen puede ser muy delicado si no se detecta a tiempo», alerta el equipo responsable del trabajo. «Tanto ciudadanía como profesionales sanitarios deben ser conscientes de los límites y fortalezas de estas tecnologías. La alfabetización digital en salud es clave».