Una experiencia real de anotación semántica a gran escala utilizando recursos de computación heterogéneos
El proceso de anotar semánticamente y de forma automática repositorios de información que contienen una gran cantidad de datos es un problema computacionalmente costoso. Muchas de las propuestas existentes para la anotación de datos han sido utilizadas sobre colecciones pequeñas de datos, y su validez no ha sido demostrada para otro tipo de colecciones más complejas. En este artículo se presenta una experiencia real de anotación semántica a gran escala. Utilizando un algoritmo de anotación definido previamente por los autores, se estimó que serían necesarios más de 1.600 años de CPU para anotar los cerca de 16 millones de recursos que componen el repositorio objetivo de este trabajo. La combinación de técnicas de programación paralela y el uso de infraestructuras de computación distribuidas y heterogéneas (grid, clúster o cloud) para la ejecución de los procesos de anotación ha permitido resolver el problema previo en 178 días. Esto demuestra la utilidad de estas infraestructuras y las ventajas de sus modelos de computación para resolver problemas abiertos en el campo del Linked-data y la semántica
keywords: Anotación semántica, computación grid y cloud, integración de recursos de computación, DBpedia y Linked-data
Publication: Congress
1624015023304
June 18, 2021
/research/publications/una-experiencia-real-de-anotacion-semantica-a-gran-escala-utilizando-recursos-de-computacion-heterogeneos
El proceso de anotar semánticamente y de forma automática repositorios de información que contienen una gran cantidad de datos es un problema computacionalmente costoso. Muchas de las propuestas existentes para la anotación de datos han sido utilizadas sobre colecciones pequeñas de datos, y su validez no ha sido demostrada para otro tipo de colecciones más complejas. En este artículo se presenta una experiencia real de anotación semántica a gran escala. Utilizando un algoritmo de anotación definido previamente por los autores, se estimó que serían necesarios más de 1.600 años de CPU para anotar los cerca de 16 millones de recursos que componen el repositorio objetivo de este trabajo. La combinación de técnicas de programación paralela y el uso de infraestructuras de computación distribuidas y heterogéneas (grid, clúster o cloud) para la ejecución de los procesos de anotación ha permitido resolver el problema previo en 178 días. Esto demuestra la utilidad de estas infraestructuras y las ventajas de sus modelos de computación para resolver problemas abiertos en el campo del Linked-data y la semántica - Sergio Hernández, Estefanía Otero-García, Javier Fabra, Juan C. Vidal, Manuel Lama, Pedro Álvarez
publications_en