Consejos de uso#
Tip: Usar modulos en un script
Para poder utilizar el entorno modules, es necesario hacer un source del fichero de perfil de modules. Para ello habrá que añadir la siguiente línea en los scripts de submit antes de utilizar cualquier comando de modules:
source /etc/profile.d/profile.modules.sh
Tip: Reservar nodos de computo completos
En los nodos de cómputo se recomienda reservar nodos completos utilizando la opción -N <nodes\>
, para que no interfieran ejecuciones de otros usuarios entre sí. Recuerde que la facturación de estos nodos es por uso de nodo.
Tip: Enviar un trabajo con sbatch
Es aconsejable el enviar el trabajo mediante sbatch así como los el uso de los modificadores -D <directorio\>
y -t <tiempo\>
.
Tip: Número de tareas por nodo
Es posible realizar ejecuciones sin utilizar todos los cores disponibles en el nodo. Para ello sólo hay que solicitar el número de nodos mediante -N X
y el número de procesos a ejecutar en cada nodo con --tasks-per-node
:
Tip: Notificaciones del gestor de trabajos slurm
Es posible gestionar la notificación automática de ciertos eventos del trabajo con las siguientes directivas.
#SBATCH --mail-user=EMAIL # Email de notificación de eventos
#SBATCH --mail-type=EVENT1,EVENT2,... # Eventos notificables
- Aclaración sobre los eventos por correo de Slurm:
Slurm puede enviar correos a la dirección especificada sobre una serie de eventos que le ocurran al trabajo. Dichos eventos pueden ser:
- BEGIN: cuando el trabajo entra en ejecución.
- END: cuando la ejecución del trabajo finalizada.
- FAIL: cuando la ejecución del trabajo falla.
- TIME_LIMIT: cuando el trabajo alcanza el tiempo máximo de ejecución.
- TIME_LIMIT_50: cuando el trabajo haya alcanzado el 50% del tiempo límite.
- TIME_LIMIT_80: cuando el trabajo haya alcanzado el 80% del tiempo límite.
- TIME_LIMIT_90: cuando el trabajo haya alcanzado el 90% del tiempo límite.
- ARRAY_TASKS: envía una notificación por email por cada trabajo del array. Si, al usar arrays, no se especifica esta opción, se enviará un email como si fuera un único trabajo.
- ALL: todos los tipos de eventos.
De todos los eventos posibles, recomendamos que se utilicen los relacionados con el consumo de tiempo límite permitido, TIME_LIMIT_50, TIME_LIMIT_80 y TIME_LIMIT_90. De esta forma, el usuario es consiente del tiempo que le queda al trabajo y, si fuese necesario, puede enviar a tiempo un correo a los administradores para que se le amplíe el tiempo de ejecución al trabajo.