Inteligencia Artificial y Métodos Big Data para el estudio masivo de datos en Internet: Nuevas metodologías para el análisis de información sanitaria en línea
El continuo progreso en el campo de los métodos computacionales para el análisis de Big Data ha traído consigo diversas posibilidades y oportunidades en numerosas áreas, como la medicina personalizada, el marketing o la investigación académica, entre otras. Específicamente, la investigación actual sobre comunicación en salud está marcada por el uso de nuevos métodos de estudio que parten de la base de integrar este tipo de herramientas.
Es por ello, que para tratar de explotar el potencial de estas técnicas, esta investigación nace del objetivo de desarrollar un método de estudio basado en técnicas de Big Data e Inteligencia Artificial (IA) para el análisis de grandes volúmenes de datos online sobre información relacionada con la salud disponible en Internet.
El resultado es una metodología basada en estas técnicas que se encuentra completamente desarrollada y que ya se ha podido aplicar para el análisis de información relacionada con el radón, un gas radioactivo de origen natural clasificado como una de las principales causas de cáncer de pulmón. En este primer experimento, se han ejecutado 51 preguntas relacionadas con el gas radón contra un corpus textual masivo (C4) que simula la web. Esto da lugar a un recurso acerca de consultas sobre el radón que puede ser explotado de diferentes formas. Esta información recuperada gracias al uso de herramientas de IA, se dispone en forma de pasajes compuestos únicamente por la información más relevante de cada web. De esta forma, un gran volumen de datos puede ser tratado incluso de forma manual. Por ejemplo, en esta ocasión, los autores definieron una serie de guías de etiquetación, con el objetivo de analizar el nivel de relevancia, la credibilidad y la correctitud de la información recuperada. Siguiendo estas guías, tres asesores humanos diferentes etiquetaron más de 5.000 pasajes de información correspondientes a 5.000 webs distintas.
Los resultados obtenidos ofrecen un análisis completo de las dimensiones analizadas de un corpus que simula la web y que, por tanto, también la búsqueda de información en Internet sobre este tema de un usuario real. En cuanto al análisis, este ha demostrado la dificultad para un usuario de encontrar información en Internet relevante o muy relevante para sus consultas relacionadas con el radón. También se ha podido detectar la presencia de desinformación, así como de información sesgada con intereses comerciales. Gracias a este método también se mide la presencia y la cantidad de información proveniente de los distintos tipos de fuentes, que en el caso del radón es mínima en cuanto a fuentes oficiales se refiere.
Como principales contribuciones de esta investigación destacamos dos principalmente: i) un recurso etiquetado en cuanto a relevancia, credibilidad y correctitud para consultas relacionadas con el gas radón y ii) la implantación de una metodología automática para la extracción y análisis de información web relacionada con la salud. Como trabajo futuro, se podrían explorar nuevas formas de explotar los recursos generados con esta metodología y nuevos análisis que aborden otra serie de dimensiones.
keywords: Health Misinformation
Publication: Congress
1701166458932
November 28, 2023
/research/publications/inteligencia-artificial-y-metodos-big-data-para-el-estudio-masivo-de-datos-en-internet-nuevas-metodologias-para-el-analisis-de-informacion-sanitaria-en-linea
El continuo progreso en el campo de los métodos computacionales para el análisis de Big Data ha traído consigo diversas posibilidades y oportunidades en numerosas áreas, como la medicina personalizada, el marketing o la investigación académica, entre otras. Específicamente, la investigación actual sobre comunicación en salud está marcada por el uso de nuevos métodos de estudio que parten de la base de integrar este tipo de herramientas.
Es por ello, que para tratar de explotar el potencial de estas técnicas, esta investigación nace del objetivo de desarrollar un método de estudio basado en técnicas de Big Data e Inteligencia Artificial (IA) para el análisis de grandes volúmenes de datos online sobre información relacionada con la salud disponible en Internet.
El resultado es una metodología basada en estas técnicas que se encuentra completamente desarrollada y que ya se ha podido aplicar para el análisis de información relacionada con el radón, un gas radioactivo de origen natural clasificado como una de las principales causas de cáncer de pulmón. En este primer experimento, se han ejecutado 51 preguntas relacionadas con el gas radón contra un corpus textual masivo (C4) que simula la web. Esto da lugar a un recurso acerca de consultas sobre el radón que puede ser explotado de diferentes formas. Esta información recuperada gracias al uso de herramientas de IA, se dispone en forma de pasajes compuestos únicamente por la información más relevante de cada web. De esta forma, un gran volumen de datos puede ser tratado incluso de forma manual. Por ejemplo, en esta ocasión, los autores definieron una serie de guías de etiquetación, con el objetivo de analizar el nivel de relevancia, la credibilidad y la correctitud de la información recuperada. Siguiendo estas guías, tres asesores humanos diferentes etiquetaron más de 5.000 pasajes de información correspondientes a 5.000 webs distintas.
Los resultados obtenidos ofrecen un análisis completo de las dimensiones analizadas de un corpus que simula la web y que, por tanto, también la búsqueda de información en Internet sobre este tema de un usuario real. En cuanto al análisis, este ha demostrado la dificultad para un usuario de encontrar información en Internet relevante o muy relevante para sus consultas relacionadas con el radón. También se ha podido detectar la presencia de desinformación, así como de información sesgada con intereses comerciales. Gracias a este método también se mide la presencia y la cantidad de información proveniente de los distintos tipos de fuentes, que en el caso del radón es mínima en cuanto a fuentes oficiales se refiere.
Como principales contribuciones de esta investigación destacamos dos principalmente: i) un recurso etiquetado en cuanto a relevancia, credibilidad y correctitud para consultas relacionadas con el gas radón y ii) la implantación de una metodología automática para la extracción y análisis de información web relacionada con la salud. Como trabajo futuro, se podrían explorar nuevas formas de explotar los recursos generados con esta metodología y nuevos análisis que aborden otra serie de dimensiones. - Noel Pascual-Presa, Marcos Fernández-Pichel, Berta García-Orosa, David E. Losada, Paula Martínez-Graña
publications_en