Context Navigation

Changes between Version 7 and Version 8 of Modipsl_curie

Timestamp:: 07/04/12 15:14:32 (12 years ago)
Author:: mafoipsl
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

Modipsl_curie

-                      v7
+                      v8
 == Documentation en ligne ==
+Vous trouverez la documentation fournie par le TGCC [https://www-tgcc.ccc.cea.fr ICI] (dans l'onglet TGCC)
+Vous trouverez la documentation fournie par le TGCC [https://www-tgcc.ccc.cea.fr ICI] (dans l'onglet TGCC) , Donnez votre login/mot de passe du TGCC/CCRT.
 == Environnement minimum ==
 …
 == Astuces ==
   * export LANG=POSIX pour afficher correctement curie.info
   * utiliser curie pour gérer vos répertoires CCCWORKDIR/CCCSTOREDIR
+  * utiliser curie pour gérer vos répertoires CCCWORKDIR/CCCSTOREDIR. Attention il peut y avoir un temps de retard entre la vision depuis curie et depuis titane. Par exemple un fichier détruit sur curie peut être vu comme détruit sur titane avec un délai (synchronisation des caches).
 == Avant de lancer un Job ==
 …
  * Il vaut mieux partir d'un restart pour l'atmosphère. Le lancement de create_eta0 doit se faire ainsi : ccc_mprun -n 1 create_etat0...
  * Si vous travaillez sur 32 processus ('''!JobNumProcTot=32''') cela signifie que la composante atmosphérique tournera sur 26 CPUs alors que la composante océanique sur 5 CPUs et le coupleur oasis une seule. C'est ce qui se passe par défaut.
+== Erreurs fréquentes sur curie lors de l'execution des simulations ==
+En règle générale, ne pas se poser de question, faire clean_month et resoumettre.
+=== il n'y a pas de fichier restart pour lmdz? ===
+Symptôme :
+ * ccc_mprun renvoie toujours un code à 0. S'il y a un plantage sur le couplé, la chaîne s'arrête car il n'y a pas de fichier restart pour lmdz.
+Remède :
+ * regarder dans le sous-répertoire Debug si le fichier de type *error existe. Il contient les messages d'erreurs en clair.
+ * regarder dans le répertoire d'execution  $SCRATCHDIR/RUN_DIR/xxxx/IPSLCM5A/xxxx le fichier out_run_file. S'il contient :
+{{{
+srun: First task exited 600s ago
+srun: tasks 0-40,42-45: running
+srun: task 41: exited abnormally
+srun: Terminating job step 438782.1
+slurmd[curie1150]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 ***
+slurmd[curie1151]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 ***
+srun: Job step aborted: Waiting up to 2 seconds for job step to finish.
+slurmd[curie1150]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 ***
+slurmd[curie1151]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 ***
+}}}
+ ne pas se poser de question. Faire un clean_month et relancer la simulation.
+=== erreurs lors des créations ou transferts de fichiers ===
+Les file system CCCWORKDIR, CCCSTOREDIR, SCRATCHDIR sont fragiles. Les messages rencontrés sont de ce genre :
+{{{
+ Input/output error
+ Cannot send after transport endpoint shutdown
+}}}
+Ne pas se poser de questions et resoumettre.
+=== erreur lors de la soumission des jobs ===
+Ce message :
+{{{
+error: Batch job submission failed: Job violates accounting policy (job submit limit, user's size and/or time limits)
+}}}
+indique que vous avez soumis trop de jobs. Attendre que les jobs s'écoulent et resoumettre.
+La commande ccc_mqinfo donne le nombre de jobs maximum, 128 à ce jour :
+{{{
+ccc_mqinfo
+Name    Priority  MaxCPUs   MaxRun  MaxSub      MaxTime
+------  --------  -------   ------  ------      -------
+normal        20                       128   1-00:00:00
+test          40                         2     00:30:00
+}}}
+=== attente longue avant l'execution d'un job ===
+Le calcul des priorités de passage se fait selon un calcul de priorité basé sur 3 critères :
+ *  QOS sélectionnée (test ou pas)
+ *  Valeur de fair-share de l'account (calculée à partir de la part de calcul et de l'utilisation faite précédemment)
+ *  Age du job
+Si vous êtes avec un nombre petit et loin derrière les jobs qui s'exécutent et si vous êtes sur plusieurs projets, utiliser le projet qui a le moins consommé.
+Ce calcul ne convient pas car nous souhaiterions favoriser les logins qui font les simulations longues, plutôt que de chercher à répartir la charge sur tous les logins. Nous sommes à la recherche d'exemples concrets de situation d'attente qui nous paraissent anormales. Prenez le temps de nous les signaler, svp.