
Programa de Formación: 'Escalando el Aprendizaje Profundo: Estrategias para el Entrenamiento y la Inferencia Distribuidos'
Durante la última década, el aprendizaje profundo ha revolucionado numerosas aplicaciones, impulsado por un aumento significativo en el tamaño y la complejidad de los modelos. Este crecimiento ha dado lugar a notables mejoras en el rendimiento, pero también ha incrementado las demandas computacionales. Los modelos modernos de aprendizaje profundo son altamente intensivos en datos, y sus procesos de entrenamiento iterativos requieren recursos computacionales considerables. Los clústeres de computación de alto rendimiento (HPC) y las plataformas en la nube, equipados con hardware especializado como las GPU, se han vuelto esenciales para el despliegue de estos modelos a gran escala. Esta charla explorará las metodologías clave del aprendizaje profundo distribuido, que permiten la paralelización del entrenamiento y desbloquean todo el potencial de los modelos de gran tamaño. Se discutirán las principales técnicas empleadas en el entrenamiento distribuido, seguidas de una sesión práctica donde los participantes adquirirán experiencia directa con ejemplos de código relevantes.
Las personas inscritas en esta actividad deberán disponer de un ordenador portátil, en el que tendrán que instalar previamente recursos indispensables para el desarrollo de la formación.
La sesión comenzará abordando las motivaciones fundamentales detrás de la creciente importancia del aprendizaje profundo distribuido, particularmente en el contexto de la escalabilidad de los modelos modernos. Se explorarán las estrategias principales que permiten el entrenamiento distribuido, con un enfoque en el paralelismo de datos y el paralelismo de modelos. Estos enfoques son esenciales para mejorar tanto la eficiencia como la escalabilidad en el entrenamiento de modelos de gran tamaño.
A continuación, se analizará el ecosistema de bibliotecas y herramientas disponibles para facilitar el entrenamiento distribuido, destacando las soluciones clave para escalar los flujos de trabajo del aprendizaje profundo. La discusión también se extenderá más allá del entrenamiento para incluir técnicas de optimización de la inferencia, como el uso de adaptadores, que permiten un despliegue eficiente de modelos grandes.
Durante la sesión práctica, los participantes obtendrán experiencia directa utilizando la biblioteca Distributed Data Parallel (DDP) de PyTorch. Se mostrará cómo distribuir el entrenamiento de modelos en múltiples GPUs dentro de un clúster HPC, ofreciendo una guía paso a paso para implementar aprendizaje profundo distribuido en un entorno real.
La asistencia a esta formación está limitada a 20 personas y requiere inscripción.
Sobre el ponente
Rocco Sedona es ingeniero computacional en el Forschungszentrum Jülich (Centro de Investigación Jülich), Alemania, donde forma parte del equipo de supercomputación dedicado a la investigación en inteligencia artificial aplicada a la observación remota de la Tierra. Su trabajo se centra en la optimización del aprendizaje profundo (deep learning, DL) en entornos de alto rendimiento (HPC), con el objetivo de mejorar la eficiencia en el procesamiento de grandes volúmenes de datos geoespaciales.
Además de su labor investigadora, Rocco Sedona participa activamente en la comunidad científica internacional. Ha sido organizador en conferencias de alto nivel como NeurIPS 2023 y ICML 2024, y ha contribuido en la evaluación científica de programas de financiación orientados a la inteligencia artificial en el Jülich Supercomputing Centre. Su enfoque multidisciplinario y su capacidad para conectar diferentes áreas del conocimiento lo posicionan como un referente emergente en la intersección de la IA, la computación de alto rendimiento y la observación remota.
Evento presencial
/events/training-program
events_es