CODEC2. Computational Developments for the Exascale Challenge 2
- Acrónimo:
- CODEC2
- Programa:
- TIN2015-63562-R - Proyectos EXCELENCIA y Proyectos RETOS (Convocatoria 2015)
- Inicio:
- 2016
- Fin:
- 2019
- Estado:
- Finalizado
- Investigadores:
- Rafael Mayo García
- Coordinación:
- CIEMAT
- Grupo de trabajo:
- Rafael Mayo García (CIEMAT),
José Antonio Moríñigo Madueño (CIEMAT),
Manuel Aurelio Rodríguez Pascual (CIEMAT),
Antonio Muñoz Roldán (CIEMAT),
Pablo García Muller (CIEMAT),
Fernando Blanco Marcilla (CIEMAT),
Esther Montes Prado (CIEMAT),
Agustín Aramendía Chasco (CIEMAT),
Antonio Juan Rubio Montero (CIEMAT),
Angelines Alberto Morillas (CIEMAT),
Alfonso Pardo Díaz (CETA-CIEMAT),
Norbert Meyer (Poznan Supercomputing Center),
Minh Lê (Universidad Técnica de Munich),
Carsten Trinitis (Universidad Técnica de Munich),
Antonio Gómez Iglesias (Texas Advanced Computing Center) y
Carlos Carela (Instituto Politécnico de Rensselaer)
Objetivo:
El objetivo de CODEC2 es avanzar en el reto al que la computación en la Exaescala se enfrenta: mejorar las capacidades de tolerancia a fallos y la planificación de tareas en los futuros supercomputadores. Ambas cuestiones están estrechamente relacionadas y en este proyecto se propone una parte fundamental de su solución: la creación de un mecanismo de puntos de control capaz de migrar las tareas que componen los trabajos paralelos dentro de una infraestructura distribuida, su integración en los últimos gestores de recursos y su ampliación para una mejor capacidad de tolerancia a fallos y una planificación eficiente de tareas.
En infraestructuras masivamente paralelas un fallo en una ejecución en paralelo multitarea puede conducir a un uso ineficiente de miles de recursos, por lo que es imprescindible disponer de un mecanismo de puntos de control eficiente y robusto. Conseguirlo sin embargo está lejos de ser trivial debido a problemas de escalabilidad, overhead y flexibilidad, los cuales aún carecen de una solución adecuada.
Lograr este objetivo es, probablemente, uno de los principales retos hoy en día en HPC. Más aun, tener un mecanismo de puntos de control no intrusivo y flexible abre un nuevo conjunto de posibilidades. Una evolución natural es ampliarlo también a la migración de las tareas que se estén ejecutando a recursos más adecuados de computación en términos de rendimiento o localidad.
En este proyecto se diseñarán algoritmos de planificación dinámica de tareas ligeros y escalables que permitan migrar tareas durante su ejecución adaptándose a las exigencias y al estado de la infraestructura. Esto redundará en un uso más eficiente de los recursos disponibles, consiguiendo una mayor eficiencia computacional y un menor consumo energético.
Para ello, se contará con diferentes tipos de códigos: secuenciales, paralelos, de memoria compartida e híbridos. Además, dada la creciente presencia de los entornos virtualizados, se adaptarán las soluciones propuestas a contenedores, lo que aportará una mayor flexibilidad y elasticidad del clúster.
Para lograr estos objetivos, se crearán los mecanismos para la migración transparente de las tareas que compongan las aplicaciones paralelas dentro de un clúster HPC; posteriormente, se definirá e implementará una interfaz homogénea para migrar tareas secuenciales y paralelas. Esta interfaz será utilizada por una nueva generación de algoritmos de planificación para maximizar la eficiencia, aumentar la estabilidad, y optimizar el consumo de energía de la infraestructura a través de una adaptación racional de las tareas que se están ejecutando y que estén en cola.
Todos estos objetivos se alcanzarán mediante la mejora de herramientas y mecanismos estándares ampliamente utilizados en los supercomputadores del Top500. Por ello, las soluciones propuestas en este proyecto serán fácilmente adoptables por muchos centros HPC, logrando así un impacto científico y tecnológico. Los resultados serán evaluados por un equipo internacional en modernos supercomputadores ejecutando exigentes aplicaciones científicas. Gracias a ello, se logrará igualmente una transferencia de conocimiento multidisciplinar a nivel mundial a los administradores y usuarios prevenientes de diferentes ámbitos.