Cluster de GPUSGPU son las siglas de "Graphics Processing Unit", término con el que se denomina técnicamente a las tarjetas gráficas. Utilizar el potencial de supercomputación con el que cuenta la GPU para resolver cálculos ha supuesto una revolución en los ámbitos científico y empresarial, pudiendo resolver problemas complejos en mucho menor tiempo.

En 2010 CETA-Ciemat fue un centro pionero al hacer una fuerte inversión en computación GPGPU (General Purpose Graphics Processing Unit – Unidad de procesamiento gráfico de propósito general). Si una sola GPU ya ofrece un potencial increíble, un cluster equipado con esta tecnología abre incluso la puerta a problemas científicos que antes no era posible plantear resolverlos.

A mediados de 2012, CETA-Ciemat ha sido reconocida como GPU Research Center, mención otorgada a aquellos centros cuyas investigaciones en el ámbito de las GPUs son relevantes a nivel mundial. Actualmente sólo existen 4 GPU Research Centers en España y unos 70 en todo el mundo.

El cluster de GPUs está abierto a los usuarios y actualmente es utilizado por investigadores de más de 40 grupos e instituciones de investigación de todo el mundo. Estos investigadores utilizan el cluster con diferentes propósitos, donde el CETA provee soporte CUDA, soporte con el envío y paralelización de trabajos. Entre estos proyectos destacan los siguientes:

  • Dinámica molecular, utilizando especialmente GROMACS & LAMMPS, para descubrimiento de nuevos fármacos (entre otras aplicaciones)
  • Procesamiento de imágenes, llevando a cabo procesamiento en tiempo real de imágenes hiperespectrales, para ayudar en la detección de diferentes tipos de objetivos como agentes contaminantes en agua y aire, detección de incendios, etc.
  • Análisis numérico y resolución de sistemas de ecuaciones lineales, acelerando los cálculos de forma notable.
  • Imagen médica, procesando imágenes de resonancia magnética para llevar a cabo diferentes estudios enfocados a facilitar el diagnóstico de enfermedades como el cáncer de mama o tumores cerebrales.
  • Secuenciación genómica, para acelerar los complejos cálculos de análisis de las secuencias.
  • Astrofísica y simulación espacial, en proyectos financiados por la Agencia Espacial Europea
  • Fusión nuclear, acelerando los cálculos de predicción en la evolución de defectos en materiales irradiados
  • Visión por ordenador, para el desarrollo de algoritmos eficientes que permitan calcular la compensación de la distorsión visual.
  • Sistemas de información geográfica (SIG), dando soporte al desarrollo de Grass GIS como herramienta de código abierto, utilizando el procesamiento con GPUs para acelerar el procesamiento de mapas e imágenes.

Cuando un usuario se conecta al sistema a través del nodo de acceso a la infraestructura HPC, puede enviar trabajos desde su carpeta de usuario a cualquiera de los recursos disponibles para todo el entorno de trabajo de supercomputación. De esta forma se facilita a los usuarios la posibilidad de evaluar diferentes plataformas de supercomputación.

El gestor de recursos utilizado es SLURM (Simple Linux Utility for Resource Management), el cual siendo totalmente libre y de código abierto, es uno de los más utilizados en supercomputadores más potentes del mundo. 


ClusterHPC_architecture.png

 

Total

100.000 cores GPU aproximadamente, desglosados en:

  • 1 nodo de login R425E2 con TESLA K20 (1 K20 por nodo)
  • 22 nodos R422E2 con TESLA S1070 (2 C1060 por nodo)
  • 16 nodos R422E2 con TESLA S2050 (2 C2050 por nodo)
  • 16 nodos R424E2 con TESLA S2070 (2 M2075 por nodo)
  • 8 nodos R421E3 con TESLA K80 (1 K80 por nodo) 
Cpu W48

Procesador

  • R422E2/R423E2: 2 x Quad Core Intel® Xeon E5520 @ 2.27GHz
  • R424E2: 2 x Quad Core Intel® Xeon® E5649 @ 2.53GHz
  • R425E2: 2 x Quad Core Intel® Xeon® X5570 @ 2.93GHz
  • R421E3: 2 x 12-Core Intel® Xeon E5-2680v3 @ 2.5GHz
Ram W48

Memoria

  • R422E2/R423E2/R424E2: 24 GBytes DDR3
  • R425E2: 96 GBytes DDR3
  • R421E3: 64 GBytes DDR4
Gpu W48

GPUs

  • Entorno Test: 2 x C1060 por nodo (S1070)
  • Entorno Producción:
    • 2 x C2050 por nodo (S2050)
    • 2 x M2075 por nodo (S2070)
    • 1 x K20 por nodo
    • 1 x K80 por nodo (S2070)
Ssoo W48

Sistema operativo

  • CentOS 7.3
Hdd W48

Almacenamiento

Net W48

Conectividad

  • Infiniband QDR (40 Gbps)
  • 2 Ethernet (1 Gbps)
  • Infiniband QDR/FDR (40/56 Gbps)

Entorno de Test

Entorno de Producción

TESLA (Fermi) S2050

TESLA (Fermi) S2070

TESLA (Kepler) K20