Guía de transición a Rocky 8.#

Con motivo de la llegada de las GPU al centro de supercomputación TeideHPC se ha introducido una versión nueva del sistema operativo que usan tanto los nodos de cómputo, GPU y nodos de login. Todo el cluster relacionado con Centos 6 y Centos 7 estarán al final de vida en pocos meses.

Se han realizado algunos cambios en el clúster y el software por lo que si ya ha ejecutado trabajos en el cluster deberá realizar ajustes en su flujo de trabajo.

Resumiendo, estos son los cambios más significativos a nivel de Sistema Operativo, software, slurm son los siguientes:

Sistema Operativo#

El cluster y los nuevos nodos de login están ahora en Rocky 8.
Existen 2 nuevos nodos de login dispuestos en alta disponibilidad (HA).

Software#

El cambio en el sistema operativo significa que la mayoría del software de los usuarios basado en Centos 6 o CentOS 7 no funcionará y ha de ser recompilado.
Se deja de usar la herramienta de modules TCL (Centos 6) en virtud de Lmod (Centos 7 y Rocky 8).
El software instalado pasa a estar organizado mediante una nomenclatura jerárquica
Cada tipo de nodos tiene instalado y compilado el software específico para cada arquitectura de nodos. Esto quiere decir:

El software instalado depende de la arquitectura de los nodos

Básicamente hay 2 arquitecturas: icelake (nodos con GPUs) y sandy(nodos de CPU).
Mira la descripción del cluster en la página principal así cómo la página "Cómo solicitar recursos de GPU y cómputo".
Para listar el software sólicita un nodo según su arquitectura.

Slurm#

La asignación de nodos pasa de ser Modo NO compartido a nodos compartidos.

Esto quiere decir que, al solicitar simplemente 1 nodo de cómputo, no se solicita el nódo completo para el usuario, por lo que se obliga al usuario a realizar una reserva completa de recursos.

Los parámetros por defecto que asigna slurm son:

#SBATCH --node=1
#SBATCH --ntask=1
#SBATCH --ntask-per-node=1
#SBATCH --cpu-per-task=1
#SBATCH --mem=2GB

Se ha introducido el uso de constraints y GRES para la solicitud de recursos de cómputo y GPUs.
Puedes estudiar la eficiencia de tus trabajos completados con un simple comando.

Repositorio público con ejemplos#

Para facilitar el inicio y acceso a la computación HPC en TeideHPC, hemos creado un repositorio público en github donde iremos publicando ejemplos de uso de aplicaciónes.

Te animamos a colaborar en él. https://github.com/hpciter/user_codes