MAGIST-ELA: Geoprocesamiento a gran escala para análisis exploratorio y basado en aprendizaje

Los problemas relacionados con el tráfico rodado son una de las mayores preocupaciones en las ciudades, y por tanto retos clave de los Sistemas Inteligentes de Transporte (ITS) urbano modernos. Incluyen el análisis del flujo de tráfico rodado y su impacto medioambiental y el análisis de la degradación de las infraestructuras.
Los avances en las tecnologías de sensorización y la implicación de los ciudadanos a través de aplicaciones móviles de crowdsensing están desembocando en la producción de cantidades de datos con ratios de generación sin precedentes. Se ha identificado un cambio de paradigma de los tradicionales ITS dirigidos por la tecnología a los modernos dirigidos por datos, que aplican algoritmos de aprendizaje sobre grandes volúmenes de datos de sensores. El Big Data ha ganado gran interés aquí, planteando importantes retos en todas las capas de software.
Muchos de estos datos tienen naturaleza geoespacial, vectoriales o raster. Tradicionalmente, los datos vectoriales y raster se almacenan y gestionan con tecnologías distintas. Recientemente, el llamado Data Lake ha surgido como una nueva arquitectura de almacenamiento de datos distribuidos para almacenes de datos modernos, pero sus extensiones espaciales se han diseñado teniendo en mente solo datos vectoriales.
A pesar de los avances en tecnologías de procesamiento a gran escala, e incluso si nos centramos en datos vectoriales, los tiempos de respuesta necesarios para el análisis exploratorio interactivo de grandes conjuntos de datos son todavía inalcanzables. Por otro lado, las implementaciones paralelas del aprendizaje automático han favorecido su escalamiento, pero con un coste e impacto ambiental frecuentemente muy alto. Para abordar estos problemas, se han propuesto técnicas específicas de procesamiento de consultas. Los tiempos de respuesta interactivos se pueden alcanzar utilizando técnicas de procesamiento aproximado de consultas implementadas sobre sinopsis, que incluyen muestreos y sketches. Soluciones de última generación de aprendizaje automático expresan el entrenamiento directamente mediante un conjunto de consultas optimizadas sobre los datos de entrada, resultando en ganancias de rendimiento de varios órdenes de magnitud sobre el tradicional uso de herramientas de aprendizaje automático sobre vistas materializadas de la base de datos. Las especificidades de los datos espaciales, y en especial aquellas de los datos raster no han sido estudiadas en profundidad en ninguna de las aproximaciones anteriores.
En base a lo anterior, el principal objetivo del subproyecto MaGIST-ELA es el desarrollo de soluciones de procesamiento de consultas eficientes sobre grandes Data Lakes geoespaciales heterogéneos (vectoriales y raster), para soportar la analítica tanto exploratoria como de aprendizaje que surge en el ámbito de análisis inteligente del tráfico rodado. Primero se utilizará el aprendizaje automático para la monitorización y predicción de flujos de tráfico, y para la monitorización y predicción de la calidad del aire. El aprendizaje automático se utilizará también para estimar la degradación del pavimento a partir de datos obtenidos de dispositivos móviles. A continuación, se diseñarán técnicas de almacenamiento y procesamiento aproximado para dar soporte al análisis exploratorio de fuentes geoespaciales. Finalmente, implementará el aprendizaje automático sobre datos vectoriales y raster mediante el procesamiento de conjuntos de consultas.

Objetivos

El objetivo principal del subproyecto MaGIST-ELA (USC) es el desarrollo de técnicas eficientes de procesamiento de consultas sobre Data Lakes heterogéneos muy grandes (vectoriales y raster) y su aplicación para la resolución de análisis geoespaciales, que surgen en el análisis inteligente del tráfico vial a escala urbana. Los análisis considerados incluyen: i) tareas de análisis exploratorio realizadas para navegar por el Data Lake y ii) entrenamiento y validación de técnicas de aprendizaje automático. Este objetivo principal de investigación se subdivide a su vez en los dos objetivos específicos siguientes:

Diseño e implementación de soluciones basadas en el uso de técnicas de aprendizaje automático para: a) la monitorización y predicción del tráfico rodado y su impacto en la monitorización y predicción de la calidad del aire y, b) la monitorización y predicción de la degradación del pavimento utilizando datos móviles con detección de masas
Desarrollo de las técnicas de almacenamiento de datos y procesamiento de consultas necesarias para la aplicación eficiente de algunos de los análisis considerados en el objetivo anterior

Los problemas relacionados con el tráfico rodado son una de las mayores preocupaciones en las ciudades, y por tanto retos clave de los Sistemas Inteligentes de Transporte (ITS) urbano modernos. Incluyen el análisis del flujo de tráfico rodado y su impacto medioambiental y el análisis de la degradación de las infraestructuras. Los avances en las tecnologías de sensorización y la implicación de los ciudadanos a través de aplicaciones móviles de crowdsensing están desembocando en la producción de cantidades de datos con ratios de generación sin precedentes. Se ha identificado un cambio de paradigma de los tradicionales ITS dirigidos por la tecnología a los modernos dirigidos por datos, que aplican algoritmos de aprendizaje sobre grandes volúmenes de datos de sensores. El Big Data ha ganado gran interés aquí, planteando importantes retos en todas las capas de software. Muchos de estos datos tienen naturaleza geoespacial, vectoriales o raster. Tradicionalmente, los datos vectoriales y raster se almacenan y gestionan con tecnologías distintas. Recientemente, el llamado Data Lake ha surgido como una nueva arquitectura de almacenamiento de datos distribuidos para almacenes de datos modernos, pero sus extensiones espaciales se han diseñado teniendo en mente solo datos vectoriales. A pesar de los avances en tecnologías de procesamiento a gran escala, e incluso si nos centramos en datos vectoriales, los tiempos de respuesta necesarios para el análisis exploratorio interactivo de grandes conjuntos de datos son todavía inalcanzables. Por otro lado, las implementaciones paralelas del aprendizaje automático han favorecido su escalamiento, pero con un coste e impacto ambiental frecuentemente muy alto. Para abordar estos problemas, se han propuesto técnicas específicas de procesamiento de consultas. Los tiempos de respuesta interactivos se pueden alcanzar utilizando técnicas de procesamiento aproximado de consultas implementadas sobre sinopsis, que incluyen muestreos y sketches. Soluciones de última generación de aprendizaje automático expresan el entrenamiento directamente mediante un conjunto de consultas optimizadas sobre los datos de entrada, resultando en ganancias de rendimiento de varios órdenes de magnitud sobre el tradicional uso de herramientas de aprendizaje automático sobre vistas materializadas de la base de datos. Las especificidades de los datos espaciales, y en especial aquellas de los datos raster no han sido estudiadas en profundidad en ninguna de las aproximaciones anteriores. En base a lo anterior, el principal objetivo del subproyecto MaGIST-ELA es el desarrollo de soluciones de procesamiento de consultas eficientes sobre grandes Data Lakes geoespaciales heterogéneos (vectoriales y raster), para soportar la analítica tanto exploratoria como de aprendizaje que surge en el ámbito de análisis inteligente del tráfico rodado. Primero se utilizará el aprendizaje automático para la monitorización y predicción de flujos de tráfico, y para la monitorización y predicción de la calidad del aire. El aprendizaje automático se utilizará también para estimar la degradación del pavimento a partir de datos obtenidos de dispositivos móviles. A continuación, se diseñarán técnicas de almacenamiento y procesamiento aproximado para dar soporte al análisis exploratorio de fuentes geoespaciales. Finalmente, implementará el aprendizaje automático sobre datos vectoriales y raster mediante el procesamiento de conjuntos de consultas.El objetivo principal del subproyecto MaGIST-ELA (USC) es el desarrollo de técnicas eficientes de procesamiento de consultas sobre Data Lakes heterogéneos muy grandes (vectoriales y raster) y su aplicación para la resolución de análisis geoespaciales, que surgen en el análisis inteligente del tráfico vial a escala urbana. Los análisis considerados incluyen: i) tareas de análisis exploratorio realizadas para navegar por el Data Lake y ii) entrenamiento y validación de técnicas de aprendizaje automático. Este objetivo principal de investigación se subdivide a su vez en los dos objetivos específicos siguientes: <ol> <li>Diseño e implementación de soluciones basadas en el uso de técnicas de aprendizaje automático para: a) la monitorización y predicción del tráfico rodado y su impacto en la monitorización y predicción de la calidad del aire y, b) la monitorización y predicción de la degradación del pavimento utilizando datos móviles con detección de masas</li> <li>Desarrollo de las técnicas de almacenamiento de datos y procesamiento de consultas necesarias para la aplicación eficiente de algunos de los análisis considerados en el objetivo anterior</li> </ol> - José Ángel Taboada González