Tuile : Summary | Introduction to ISDM-MESO cluster IO and Slurm

Summary
- Sélectionner l’activité English
  English
  
  Sélectionner l’activité Cluster IO - Quick Start Guide
  
  Cluster IO - Quick Start Guide
  
  This page summarizes the essential steps to start using the cluster quickly.
  
  1. Connect to the cluster
  
  ssh username@login-io.meso.umontpellier.fr
  
  At first login, change your password:
  
  passwd
  
  2. Basic Linux commands
  
  pwd # print working directory
  
  ls # list files
  
  cd <directory> # go to a folder
  
  cp file1 file2 # copy file1 into file2 (both files exist)
  
  mv file2 file2 # move file1 into file2 (file1 becomes file2)
  
  rm file # delete file
  
  3. Storage organization
  
  Home/Work: personal/shared data storage
  
  Scratch: personal/shared fast access storage to run calculations (erased every 2 months)
  
  4. Access type
  
  Dedicated: access to a fixed number of CPU or GPU resources
  
  Ondemand: access to a fixed number of computational hours
  
  5. Create and run jobs (Slurm)
  
  Create a script:
  
  nano job.sh
  
  Example:
  
  #!/bin/bash
  #_______________________________________________________________________________
  # INSTRUCTIONS FOR SLURM
  #_______________________________________________________________________________
  #SBATCH --job-name=HelloCluster # name of the job - change it for anything meaning for you
  #SBATCH --output=results_%x_%j.out # output file - %x is the job name %j is the job ID
  #SBATCH --error=error_%x_%j.err # error file - %x is the job name %j is the job ID
  #SBATCH --time=00:02:00 # max time of job run (HH:MM:SS) - here 2 minutes
  #SBATCH --nodes=1 # number of nodes
  #SBATCH --ntasks=1 # number of tasks (processes)
  #SBATCH --cpus-per-task=1 # number of CPUs per task
  #SBATCH --mem=50M # required memory per job (ex: 50 Mo)
  #SBATCH --partition=cpu-ondemand # partition - for CPU ondemand
  #SBATCH --account=ondemand@groupname # account to credit
  #_________________________________Optional______________________________________
  ##SBATCH --mail-user=your.name@youremail.com # email to be used for slurm communication
  ##SBATCH --mail-type=END # slurm will send an email when the job is done
  #_______________________________________________________________________________
  # Commands that will be run
  #_______________________________________________________________________________
  echo "------------------------------------------------------"
  echo "Hello from the cluster !"
  echo "This job runs on the node : $(hostname)" # show the name of the node
  echo "Launched on : $(date)" # show when the job started
  echo "------------------------------------------------------"
  # We simulate a job of 20 seconds
  echo "The job will now run for 20 seconds..."
  sleep 20
  echo "All done."
  echo "------------------------------------------------------"
  echo "Job finished on : $(date)"
  echo "------------------------------------------------------"
  
  Submit job:
  
  sbatch job.sh
  
  Check jobs:
  
  squeue -u $USER
  
  Cancel job:
  
  scancel <jobID>
  
  Show GPU available (--gres):
  
  sinfo -o "%N %G"
  
  Show your account
  
  sacctmgr show user name=$USER withassoc format=User%30,Account%30,DefaultAccount%30
  
  Check your hour quota (ondemand users)
  
  slurm-quota stats $USER
  
  Partitions on IO:
  
  cpu-ondemand
  
  gpu-ondemand
  
  cpu-dedicated
  
  gpu-dedicated
  
  6. CPU vs GPU
  
  CPU: general computing tasks
  
  GPU: machine learning, complex calculations, simulations, parallel tasks
  
  Add #SBATCH --gres= into your submission script to request GPU resources.
  
  7. Transfer files
  
  From your computer to cluster (find path with pwd):
  
  scp file.txt username@login-io.meso.umontpellier.fr:/home/username/path/.
  
  From cluster to your computer:
  
  scp username@login-io.meso.umontpellier.fr:/home/username/path/file.txt .
  
  Add -r to copy directories
  
  8. User web interface (Open OnDemand)
  
  For both dedicated and ondemad users
  
  Access files via browser
  
  Monitor jobs
  
  Launch interactive jobs like Jupyter and RStudio
  
  Uses your account and partition as in a normal Slurm job
  
  9. Common mistakes
  
  Running computations on login nodes - PLEASE DON'T
  
  Not setting --time option in Slurm script
  
  Not writing output and error files
  
  Deleting important files with rm
  
  Need help?
  Visit our ISDM-MESO documentation page for more information
  Send us a question to get direct response via our Ticketing System
  
  Institut de Science des Données de Montpellier
  Bât. 4 et 15 Case courrier 13004
  Place Eugène Bataillon 34095 Montpellier Cedex 5
  04.67.14.47.89 | isdm@umontpellier.fr
- Sélectionner l’activité Francais
  Francais
  
  Sélectionner l’activité Cluster IO - Guide de démarrage rapide
  
  Cluster IO - Guide de démarrage rapide
  
  Cette page résume les étapes essentielles pour commencer rapidement à utiliser le cluster.
  
  1. Connectez-vous au cluster
  
  ssh username@login-io.meso.umontpellier.fr
  
  Lors de votre première connexion, modifiez votre mot de passe :
  
  passwd
  
  2. Commandes Linux de base
  
  pwd # afficher le répertoire de travail
  
  ls # lister les fichiers
  
  cd <directory> # accéder à un dossier
  
  cp file1 file2 # copier le fichier1 dans le fichier2 (les deux fichiers existent)
  
  mv file2 file2 # déplacer le fichier1 vers le fichier2 (le fichier1 devient le fichier2)
  
  rm file # supprimer le fichier
  
  3. Organisation du stockage
  
  Home/Work : stockage de données personnelles/partagées
  
  Scratch: espace de stockage rapide, personnel ou partagé, destiné à l'exécution de calculs (effacé tous les deux mois)
  
  4. Type d'accès
  
  Dedicated: dédié, accès à un nombre fixe de ressources CPU ou GPU
  
  Ondemand, à la demande : accès à un nombre fixe d'heures de calcul
  
  5. Créer et exécuter des tâches (Slurm)
  
  Créer un script :
  
  nano job.sh
  
  Exemple:
  
  #!/bin/bash
  #_______________________________________________________________________________
  # INSTRUCTIONS POUR SLURM
  #_______________________________________________________________________________
  
  #SBATCH --job-name=HelloCluster # nom du travail - remplacez-le par un nom qui vous convient
  #SBATCH --output=results_%x_%j.out # fichier de sortie - %x est le nom du travail, %j est l'ID du travail
  #SBATCH --error=error_%x_%j.err # fichier d'erreurs - %x correspond au nom du travail et %j à son ID
  #SBATCH --time=00:02:00 # durée maximale d'exécution du travail (HH:MM:SS) - ici 2 minutes
  #SBATCH --nodes=1 # nombre de nœuds
  #SBATCH --ntasks=1 # nombre de tâches (processus)
  #SBATCH --cpus-per-task=1 # nombre de processeurs par tâche
  #SBATCH --mem=50M # mémoire requise par tâche (ex : 50 Mo)
  #SBATCH --partition=cpu-ondemand # partition - pour CPU à la demande
  #SBATCH --account=ondemand@groupname # compte à créditer
  #_________________________________Facultatif______________________________________
  ##SBATCH --mail-user=your.name@youremail.com # e-mail à utiliser pour la communication slurm
  ##SBATCH --mail-type=END # slurm enverra un e-mail lorsque le travail sera terminé
  
  #_______________________________________________________________________________
  # Commandes qui seront exécutées
  #_______________________________________________________________________________
  echo ' ------------------------------------------------------ '
  echo ' Bonjour depuis le cluster ! '
  echo " Cette tâche s'exécute sur le nœud : $(hostname) " # afficher le nom du nœud
  echo " Lancée le : $(date) " # afficher la date de début de la tâche
  echo "-------------------------------------------- -----------"
  
  # Nous simulons une tâche de 20 secondes
  echo " La tâche va maintenant s'exécuter pendant 20 secondes... "
  sleep 20
  echo " Tout est terminé. "
  
  echo "-------------------------------------- ----------------"
  echo " Tâche terminée le : $(date) "
  echo " ------------------------------------------------------ "
  
  Soumettre une tâche :
  
  sbatch job.sh
  
  Vérifier les tâches :
  
  squeue -u $USER
  
  Annuler une tâche :
  
  scancel <jobID>
  
  Afficher les GPU disponibles (--gres) :
  
  sinfo -o "%N %G"
  
  Afficher votre compte (account) :
  
  sacctmgr show user name=$USER withassoc format=User%30,Account%30,DefaultAccount%30
  
  Vérifier votre quota horaire (utilisateurs ondemand) :
  
  slurm-quota stats $USER
  
  Partitions sur IO :
  
  cpu-ondemand
  
  gpu-ondemand
  
  cpu-dedicated
  
  gpu-dedicated
  
  6. CPU vs GPU
  
  CPU: tâches informatiques générales
  
  GPU: apprentissage automatique, calculs complexes, simulations, tâches parallèles
  
  Ajoutez #SBATCH --gres= dans votre script de soumission pour demander des ressources GPU.
  
  7. Transférer des fichiers
  
  De votre ordinateur vers le cluster (vérifiez le chemin d'accès avec la commande pwd) :
  
  scp file.txt username@login-io.meso.umontpellier.fr:/home/username/path/.
  
  Du cluster vers votre ordinateur :
  
  scp username@login-io.meso.umontpellier.fr:/home/username/path/file.txt .
  
  Ajoutez l'option -r pour copier des répertoires
  
  8. Interface Web (Open OnDemand)
  
  Pour les utilisateurs dédiés et à la demande
  
  Accéder aux fichiers via un navigateur
  
  Surveiller les tâches
  
  Lancer des tâches interactives telles que Jupyter et RStudio
  
  Utilise votre compte et votre partition comme pour une tâche Slurm classique
  
  9. Erreurs courantes
  
  Exécuter des calculs sur les nœuds de connexion - À ÉVITER ABSOLUMENT
  
  Ne pas définir l'option --time dans le script Slurm
  
  Ne pas enregistrer les fichiers de sortie et d'erreurs
  
  Supprimer des fichiers importants avec la commande rm
  
  Besoin d'aide ?
  Consultez notre page de documentation ISDM-MESO pour plus d'informations
  Envoyez-nous votre question pour obtenir une réponse via notre système de tickets
  
  Institut de Science des Données de Montpellier
  Bât. 4 et 15 Case courrier 13004
  Place Eugène Bataillon 34095 Montpellier Cedex 5
  04.67.14.47.89 | isdm@umontpellier.fr

Summary

English

Cluster IO - Quick Start Guide

1. Connect to the cluster

2. Basic Linux commands

3. Storage organization

4. Access type

5. Create and run jobs (Slurm)

6. CPU vs GPU

7. Transfer files

8. User web interface (Open OnDemand)

9. Common mistakes

Need help?

Francais

Cluster IO - Guide de démarrage rapide

1. Connectez-vous au cluster

2. Commandes Linux de base

3. Organisation du stockage

4. Type d'accès

5. Créer et exécuter des tâches (Slurm)

6. CPU vs GPU

7. Transférer des fichiers

8. Interface Web (Open OnDemand)

9. Erreurs courantes

Besoin d'aide ?