Saltar a contenido

Consejos de uso#

Tip: Reservar nodos de computo completos

En los nodos de cómputo se recomienda reservar nodos completos utilizando la opción -N <nodes\>, para que no interfieran ejecuciones de otros usuarios entre sí. Recuerde que la facturación de estos nodos es por uso de nodo.

Tip: Enviar un trabajo con sbatch

Es aconsejable el enviar el trabajo mediante sbatch así como los el uso de los modificadores -D <directorio\> y -t <tiempo\>.

-t <tiempo>      o su equivalente #SBATCH -t <days-HH:MM>
-D <directorio>  o su equivalente #SBATCH -D <directorio>

Tip: Número de tareas por nodo

Es posible realizar ejecuciones sin utilizar todos los cores disponibles en el nodo. Para ello sólo hay que solicitar el número de nodos mediante -N X y el número de procesos a ejecutar en cada nodo con --tasks-per-node:

srun -N 4 --tasks-per-node=8 <software>

#SBATCH --N 4
#SBATCH --tasks-per-node=8

Tip: Notificaciones del gestor de trabajos slurm

Es posible gestionar la notificación automática de ciertos eventos del trabajo con las siguientes directivas.

#SBATCH --mail-user=EMAIL                  # Email de notificación de eventos
#SBATCH --mail-type=EVENT1,EVENT2,...      # Eventos notificables
  • Aclaración sobre los eventos por correo de Slurm:

Slurm puede enviar correos a la dirección especificada sobre una serie de eventos que le ocurran al trabajo. Dichos eventos pueden ser:

  • BEGIN: cuando el trabajo entra en ejecución.
  • END: cuando la ejecución del trabajo finalizada.
  • FAIL: cuando la ejecución del trabajo falla.
  • TIME_LIMIT: cuando el trabajo alcanza el tiempo máximo de ejecución.
  • TIME_LIMIT_50: cuando el trabajo haya alcanzado el 50% del tiempo límite.
  • TIME_LIMIT_80: cuando el trabajo haya alcanzado el 80% del tiempo límite.
  • TIME_LIMIT_90: cuando el trabajo haya alcanzado el 90% del tiempo límite.
  • ARRAY_TASKS: envía una notificación por email por cada trabajo del array. Si, al usar arrays, no se especifica esta opción, se enviará un email como si fuera un único trabajo.
  • ALL: todos los tipos de eventos.

De todos los eventos posibles, recomendamos que se utilicen los relacionados con el consumo de tiempo límite permitido, TIME_LIMIT_50, TIME_LIMIT_80 y TIME_LIMIT_90. De esta forma, el usuario es consiente del tiempo que le queda al trabajo y, si fuese necesario, puede enviar a tiempo un correo a los administradores para que se le amplíe el tiempo de ejecución al trabajo.