Saltar a contenido

Inicio rápido: partición gpu-3#

¿Qué es MIG?#

MIG (Multi-Instance GPU) es una tecnología de NVIDIA (A100/H100/H200, etc.) que permite dividir una GPU física en varias instancias aisladas (particiones). Cada instancia tiene cómputo, memoria HBM, cachés y motores de copia dedicados, lo que evita que un trabajo “ruidoso” afecte a los demás.

Tip

Esto es útil para que un único trabajo no ocupe toda la GPU y así optimicemos su uso.

La partición gpu-3#

En la partición gpu-3 cada A100 se divide en tres instancias MIG de ~10 GB (2g.10gb). Es ideal si tu trabajo necesita una GPU intermedia: ni 5 GB ni 20 GB.

¿Cuando debemos elegir la partición gpu-3?#

  • Si estamos comenzando a usar las GPUs.
  • Si nuestro modelo necesita ~10 GB de VRAM.
  • Si estamos ejecutando pruebas o conceptos.

Ejemplos#

Ejemplo rápido interactivo:

salloc --partition=gpu-3 -n 1 --cpus-per-task=5 --mem=10G --gres=gpu:1

Plantilla de batch (copia y pega y ajusta parámetros):

#!/bin/bash
#SBATCH -p gpu-3
#SBATCH -n 1
#SBATCH --cpus-per-task=5
#SBATCH --mem=10G
#SBATCH --gres=gpu:1
#SBATCH --time=02:00:00

module purge
module load CUDA/12.4.0

nvidia-smi
# aquí ejecutas tu código GPU, p. ej. python train.py