Guía de transición a Rocky 8.#

Con motivo de la llegada de las GPU al centro de supercomputación TeideHPC se ha introducido una versión nueva del sistema operativo que usan tanto los nodos de cómputo, GPU y nodos de login. Todo el cluster relacionado con Centos 6 y Centos 7 estarán al final de vida en pocos meses.

Por otra parte, se ha creado un nuevo cluster llamado AnagaGPU y se han realizado algunos cambios en el cluster TeideHPC, así como en el software, por lo que si ya ha ejecutado trabajos en TeideHPC deberá realizar ajustes en su flujo de trabajo.

Resumiendo, estos son los cambios más significativos a nivel de Sistema Operativo, acceso, software, slurm.

Sistema Operativo y nodos de login#

Cada cluster (TeideHPC y AnagaGPU) tiene su propia IP de acceso.
El sistema operativo de ambos cluster y los nuevos nodos es Rocky 8.
Existen 4 nuevos nodos de login dispuestos en alta disponibilidad (HA) mediante 2 IPs de acceso.
La asignación de nodo de login durante el acceso es aleatoria y va en función del número de usuarios.

Software#

El cambio en el sistema operativo significa que la mayoría del software de los usuarios basado en Centos 6 o CentOS 7 no funcionará y ha de ser recompilado.
Se deja de usar la herramienta de modules TCL (Centos 6) en virtud de Lmod.
El software instalado pasa a estar organizado mediante una nomenclatura plana
Cada tipo de nodos tiene instalado y compilado el software específico para cada arquitectura de nodos. Esto quiere decir:

El software instalado depende de la arquitectura de los nodos

Básicamente hay 2 arquitecturas: icelake (nodos con GPUs) y sandybrige(nodos de CPU).
Mira la descripción del cluster en la página principal así cómo la página "Cómo solicitar recursos de GPU y cómputo".

Cada cluster tiene su propio software

Para ver el software disponible en cada cluster debe ingresar a través de las Ip de acceso de cada cluster.

Existen módulos que no dependen de la arquitectura

--------------- /share/easybuild/software/common/modules/all ---------------------
  EasyBuild/4.7.0          Go/1.18.3         Miniconda3/22.11.1-1        Singularity/3.11.0    slurm/teide
  EasyBuild/4.8.2 (L,D)    Mamba/4.14.0-0    Miniconda3/23.5.2-0  (D)    Squashfs/4.3

Slurm#

La asignación de nodos pasa de ser Modo NO compartido a nodos compartidos.

Esto quiere decir que, al solicitar simplemente 1 nodo de cómputo, no se solicita el nódo completo para el usuario, por lo que se obliga al usuario a realizar una reserva completa de recursos si es lo que se desea.

Los parámetros por defecto que asigna slurm son:

#SBATCH --node=1
#SBATCH --ntask=1
#SBATCH --ntask-per-node=1
#SBATCH --cpu-per-task=1
#SBATCH --mem=2GB

Se ha introducido el uso de una partición nueva para la solicitud de recursos de GPUs.
Recomendamos encarecidamente que para ejecutar aplicaciones se use el comando srun tu_aplicacion. Aquí puedes ver una explicación sencilla de qué implicaciones puede tener usarlo o no usarlo.
Puedes estudiar la eficiencia de tus trabajos completados con un simple comando.

Repositorio público con ejemplos#

Para facilitar el inicio y acceso a la computación HPC en TeideHPC, hemos creado un repositorio público en github donde iremos publicando ejemplos de uso de aplicaciónes.

Te animamos a colaborar en él. https://github.com/hpciter/user_codes