Context Navigation

Changes between Version 14 and Version 15 of Modipsl_vargas

Timestamp:: 03/06/12 14:03:55 (12 years ago)
Author:: mafoipsl
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

Modipsl_vargas

-                      v14
+                      v15
 La machine ulam peut être arrêtée alors que votre job tourne sur vargas. Dans ces cas-là, les jobs de post-traitement ne peuvent pas être soumis. Le répertoire POSTPONE est là pour les garder au chaud ; lors de la prochaine soumission de jobs de post-traitement, les anciens travaux de post-traitements seront soumis en les prenant dans ce répertoire.
+== Commandes permettant de connaitre la mémoire utilisée par les jobs ==
+ *  En cours d'exécution, "Qstat -r". Par exemple :
+{{{
+$ Qstat -r -u rgpi001
+                                   Dispatch Data  Stack Rss
+Step Id             Owner   Class   Date     Avg   Avg   Max    Cpu Used
+------------------- ------- ------- -------- ----- ----- ----- ---------
+vargas043.964451.0  rgpi001 c32t4   05 08:24   0.0   0.0   0.8 894:55:56
+}}}
+On lit 0,8 GiB pour "max RSS" (maximum resident set size, = data + stack normalement).
+ * En cours d'exécution, "llq -x -l". Par exemple :
+{{{
+llq -j vargas043.964451.0 -x -l
+}}}
+donne des pages et des pages d'information dont :
+{{{
+       Step maxrss: 826588 (en KiB)
+}}}
+ * Pour avoir des informations à la fin de l'exécution, "hpccount".
+L'utiliser comme "time", devant un exécutable. Surcoût négligeable.
+Exemple pour un exécutable séquentiel :
+{{{
+module load hpccount
+hpccount ce0l
+}}}
+affiche à la fin des informations, dont "Maximum resident set size" :
+{{{
+hpccount v3.2.1 (IHPCT v2.2.0) summary
+########  Resource Usage Statistics  ########
+Total amount of time in user mode            : 101.501224 seconds
+Total amount of time in system mode          : 0.084285 seconds
+Maximum resident set size                    : 289888 Kbytes
+Average shared memory use in text segment    : 185030 Kbytes*sec
+Average unshared memory use in data segment  : 23379240 Kbytes*sec
+Number of page faults without I/O activity   : 72046
+Number of page faults with I/O activity      : 464
+Number of times process was swapped out      : 0
+Number of times file system performed INPUT  : 0
+Number of times file system performed OUTPUT : 0
+Number of IPC messages sent                  : 0
+Number of IPC messages received              : 0
+Number of signals delivered                  : 0
+Number of voluntary context switches         : 102
+Number of involuntary context switches       : 184
+#######  End of Resource Statistics  ########
+Execution time (wall clock time)     : 103.605896331836 seconds
+ PM_FPU_1FLOP (FPU executed one flop instruction )                :     14242086741
+ PM_FPU_FMA (FPU executed multiply-add instruction)               :       906129309
+ PM_FPU_FSQRT_FDIV (FPU executed FSQRT or FDIV instruction)       :        56844327
+ PM_FPU_FLOP (FPU executed 1FLOP, FMA, FSQRT or FDIV instruction) :     15205060377
+ PM_RUN_INST_CMPL (Run instructions completed)                    : 108472281030
+ PM_RUN_CYC (Run cycles)                                          : 478031532649
+ Utilization rate                               :          98.085 %
+ Instructions per run cycle                     :           0.227
+ Total floating point operations                :       16111.190 M
+ Flop rate (flops / WCT)                        :         155.505
+ Mflop/s
+ Flops / user time                              :         158.540
+ Mflop/s
+ Algebraic floating point operations            :       16054.345 M
+ Algebraic flop rate (flops / WCT)              :         154.956
+ Mflop/s
+ Algebraic flops / user time                    :         157.980
+ Mflop/s
+ FMA percentage                                 :          11.248 %
+ % of peak performan
+}}}
+ * Exemple sur un exécutable parallèle :
+{{{
+export HPM_ASC_OUTPUT=yes
+export HPM_AGGREGATE=average.so
+poe hpccount -o hpccount_out -u -n gcm -procs 4 -stdoutmode 0
+}}}
+crée un fichier "hpccount_out_vargas....hpm" qui contient les
+informations moyennées sur les processus MPI.