Changes between Version 7 and Version 8 of Modipsl_curie


Ignore:
Timestamp:
07/04/12 15:14:32 (12 years ago)
Author:
mafoipsl
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Modipsl_curie

    v7 v8  
    66 
    77== Documentation en ligne ==  
    8 Vous trouverez la documentation fournie par le TGCC [https://www-tgcc.ccc.cea.fr ICI] (dans l'onglet TGCC)  
    9  
     8Vous trouverez la documentation fournie par le TGCC [https://www-tgcc.ccc.cea.fr ICI] (dans l'onglet TGCC) , Donnez votre login/mot de passe du TGCC/CCRT. 
    109 
    1110== Environnement minimum ==  
     
    5352== Astuces == 
    5453  * export LANG=POSIX pour afficher correctement curie.info 
    55   * utiliser curie pour gérer vos répertoires CCCWORKDIR/CCCSTOREDIR 
     54  * utiliser curie pour gérer vos répertoires CCCWORKDIR/CCCSTOREDIR. Attention il peut y avoir un temps de retard entre la vision depuis curie et depuis titane. Par exemple un fichier détruit sur curie peut être vu comme détruit sur titane avec un délai (synchronisation des caches).  
    5655 
    5756== Avant de lancer un Job ==  
     
    9998 * Il vaut mieux partir d'un restart pour l'atmosphère. Le lancement de create_eta0 doit se faire ainsi : ccc_mprun -n 1 create_etat0... 
    10099 * Si vous travaillez sur 32 processus ('''!JobNumProcTot=32''') cela signifie que la composante atmosphérique tournera sur 26 CPUs alors que la composante océanique sur 5 CPUs et le coupleur oasis une seule. C'est ce qui se passe par défaut.  
     100 
     101== Erreurs fréquentes sur curie lors de l'execution des simulations == 
     102 
     103En règle générale, ne pas se poser de question, faire clean_month et resoumettre.  
     104 
     105=== il n'y a pas de fichier restart pour lmdz? === 
     106 
     107Symptôme :  
     108 * ccc_mprun renvoie toujours un code à 0. S'il y a un plantage sur le couplé, la chaîne s'arrête car il n'y a pas de fichier restart pour lmdz.  
     109 
     110Remède :  
     111 * regarder dans le sous-répertoire Debug si le fichier de type *error existe. Il contient les messages d'erreurs en clair. 
     112 * regarder dans le répertoire d'execution  $SCRATCHDIR/RUN_DIR/xxxx/IPSLCM5A/xxxx le fichier out_run_file. S'il contient : 
     113{{{ 
     114srun: First task exited 600s ago 
     115srun: tasks 0-40,42-45: running 
     116srun: task 41: exited abnormally 
     117srun: Terminating job step 438782.1 
     118slurmd[curie1150]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** 
     119slurmd[curie1151]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** 
     120srun: Job step aborted: Waiting up to 2 seconds for job step to finish. 
     121slurmd[curie1150]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** 
     122slurmd[curie1151]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** 
     123}}} 
     124 ne pas se poser de question. Faire un clean_month et relancer la simulation. 
     125 
     126=== erreurs lors des créations ou transferts de fichiers === 
     127 
     128Les file system CCCWORKDIR, CCCSTOREDIR, SCRATCHDIR sont fragiles. Les messages rencontrés sont de ce genre : 
     129{{{ 
     130 Input/output error 
     131 Cannot send after transport endpoint shutdown 
     132}}} 
     133 
     134Ne pas se poser de questions et resoumettre. 
     135 
     136=== erreur lors de la soumission des jobs === 
     137Ce message : 
     138{{{ 
     139error: Batch job submission failed: Job violates accounting policy (job submit limit, user's size and/or time limits) 
     140}}} 
     141indique que vous avez soumis trop de jobs. Attendre que les jobs s'écoulent et resoumettre. 
     142La commande ccc_mqinfo donne le nombre de jobs maximum, 128 à ce jour : 
     143{{{ 
     144ccc_mqinfo 
     145Name    Priority  MaxCPUs   MaxRun  MaxSub      MaxTime 
     146------  --------  -------   ------  ------      ------- 
     147normal        20                       128   1-00:00:00  
     148test          40                         2     00:30:00  
     149}}} 
     150 
     151=== attente longue avant l'execution d'un job === 
     152Le calcul des priorités de passage se fait selon un calcul de priorité basé sur 3 critères : 
     153 *  QOS sélectionnée (test ou pas) 
     154 *  Valeur de fair-share de l'account (calculée à partir de la part de calcul et de l'utilisation faite précédemment) 
     155 *  Age du job 
     156Si vous êtes avec un nombre petit et loin derrière les jobs qui s'exécutent et si vous êtes sur plusieurs projets, utiliser le projet qui a le moins consommé. 
     157 
     158Ce calcul ne convient pas car nous souhaiterions favoriser les logins qui font les simulations longues, plutôt que de chercher à répartir la charge sur tous les logins. Nous sommes à la recherche d'exemples concrets de situation d'attente qui nous paraissent anormales. Prenez le temps de nous les signaler, svp. 
     159