Guía de transición a Rocky 8.#
Con motivo de la llegada de las GPU al centro de supercomputación TeideHPC se ha introducido una versión nueva del sistema operativo que usan tanto los nodos de cómputo, GPU y nodos de login. Todo el cluster relacionado con Centos 6 y Centos 7 estarán al final de vida en pocos meses.
Se han realizado algunos cambios en el clúster y el software por lo que si ya ha ejecutado trabajos en el cluster deberá realizar ajustes en su flujo de trabajo.
Resumiendo, estos son los cambios más significativos a nivel de Sistema Operativo, software, slurm son los siguientes:
Sistema Operativo#
- El cluster y los nuevos nodos de login están ahora en Rocky 8.
- Existen 2 nuevos nodos de login dispuestos en alta disponibilidad (HA).
Software#
-
El cambio en el sistema operativo significa que la mayoría del software de los usuarios basado en Centos 6 o CentOS 7 no funcionará y ha de ser recompilado.
-
Se deja de usar la herramienta de modules TCL (Centos 6) en virtud de Lmod (Centos 7 y Rocky 8).
-
El software instalado pasa a estar organizado mediante una nomenclatura jerárquica
-
Cada tipo de nodos tiene instalado y compilado el software específico para cada arquitectura de nodos. Esto quiere decir:
El software instalado depende de la arquitectura de los nodos
- Básicamente hay 2 arquitecturas: icelake (nodos con GPUs) y sandy(nodos de CPU).
- Mira la descripción del cluster en la página principal así cómo la página "Cómo solicitar recursos de GPU y cómputo".
- Para listar el software sólicita un nodo según su arquitectura.
Slurm#
- La asignación de nodos pasa de ser Modo NO compartido a nodos compartidos.
Esto quiere decir que, al solicitar simplemente 1 nodo de cómputo, no se solicita el nódo completo para el usuario, por lo que se obliga al usuario a realizar una reserva completa de recursos.
- Los parámetros por defecto que asigna slurm son:
#SBATCH --node=1
#SBATCH --ntask=1
#SBATCH --ntask-per-node=1
#SBATCH --cpu-per-task=1
#SBATCH --mem=2GB
-
Se ha introducido el uso de constraints y GRES para la solicitud de recursos de cómputo y GPUs.
-
Puedes estudiar la eficiencia de tus trabajos completados con un simple comando.
Repositorio público con ejemplos#
Para facilitar el inicio y acceso a la computación HPC en TeideHPC, hemos creado un repositorio público en github donde iremos publicando ejemplos de uso de aplicaciónes.
Te animamos a colaborar en él. https://github.com/hpciter/user_codes