| 100 | |
| 101 | == Erreurs fréquentes sur curie lors de l'execution des simulations == |
| 102 | |
| 103 | En règle générale, ne pas se poser de question, faire clean_month et resoumettre. |
| 104 | |
| 105 | === il n'y a pas de fichier restart pour lmdz? === |
| 106 | |
| 107 | Symptôme : |
| 108 | * ccc_mprun renvoie toujours un code à 0. S'il y a un plantage sur le couplé, la chaîne s'arrête car il n'y a pas de fichier restart pour lmdz. |
| 109 | |
| 110 | Remède : |
| 111 | * regarder dans le sous-répertoire Debug si le fichier de type *error existe. Il contient les messages d'erreurs en clair. |
| 112 | * regarder dans le répertoire d'execution $SCRATCHDIR/RUN_DIR/xxxx/IPSLCM5A/xxxx le fichier out_run_file. S'il contient : |
| 113 | {{{ |
| 114 | srun: First task exited 600s ago |
| 115 | srun: tasks 0-40,42-45: running |
| 116 | srun: task 41: exited abnormally |
| 117 | srun: Terminating job step 438782.1 |
| 118 | slurmd[curie1150]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** |
| 119 | slurmd[curie1151]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** |
| 120 | srun: Job step aborted: Waiting up to 2 seconds for job step to finish. |
| 121 | slurmd[curie1150]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** |
| 122 | slurmd[curie1151]: *** STEP 438782.1 KILLED AT 2012-06-10T18:45:41 WITH SIGNAL 9 *** |
| 123 | }}} |
| 124 | ne pas se poser de question. Faire un clean_month et relancer la simulation. |
| 125 | |
| 126 | === erreurs lors des créations ou transferts de fichiers === |
| 127 | |
| 128 | Les file system CCCWORKDIR, CCCSTOREDIR, SCRATCHDIR sont fragiles. Les messages rencontrés sont de ce genre : |
| 129 | {{{ |
| 130 | Input/output error |
| 131 | Cannot send after transport endpoint shutdown |
| 132 | }}} |
| 133 | |
| 134 | Ne pas se poser de questions et resoumettre. |
| 135 | |
| 136 | === erreur lors de la soumission des jobs === |
| 137 | Ce message : |
| 138 | {{{ |
| 139 | error: Batch job submission failed: Job violates accounting policy (job submit limit, user's size and/or time limits) |
| 140 | }}} |
| 141 | indique que vous avez soumis trop de jobs. Attendre que les jobs s'écoulent et resoumettre. |
| 142 | La commande ccc_mqinfo donne le nombre de jobs maximum, 128 à ce jour : |
| 143 | {{{ |
| 144 | ccc_mqinfo |
| 145 | Name Priority MaxCPUs MaxRun MaxSub MaxTime |
| 146 | ------ -------- ------- ------ ------ ------- |
| 147 | normal 20 128 1-00:00:00 |
| 148 | test 40 2 00:30:00 |
| 149 | }}} |
| 150 | |
| 151 | === attente longue avant l'execution d'un job === |
| 152 | Le calcul des priorités de passage se fait selon un calcul de priorité basé sur 3 critères : |
| 153 | * QOS sélectionnée (test ou pas) |
| 154 | * Valeur de fair-share de l'account (calculée à partir de la part de calcul et de l'utilisation faite précédemment) |
| 155 | * Age du job |
| 156 | Si vous êtes avec un nombre petit et loin derrière les jobs qui s'exécutent et si vous êtes sur plusieurs projets, utiliser le projet qui a le moins consommé. |
| 157 | |
| 158 | Ce calcul ne convient pas car nous souhaiterions favoriser les logins qui font les simulations longues, plutôt que de chercher à répartir la charge sur tous les logins. Nous sommes à la recherche d'exemples concrets de situation d'attente qui nous paraissent anormales. Prenez le temps de nous les signaler, svp. |
| 159 | |