wiki:Calculateurs/IreneAmd

Version 4 (modified by aclsce, 4 years ago) (diff)

--

Portage IreneAmd

Validation

IPSLCM6.1.11-LR

Configuration IPSL-CM6-LR
Critère contrôlé Restart historique (H1C=H2C)
Résultats OK
Commentaires OK pour 5D + 5D = 10D, 1M + 1M +... = 1Y + 1Y

La configuration IPSLCM6.1.11-LR a été validée sur 50 ans d'expérience piControl. Un inter-monitoring avec les simulations piControl CMIP6 qui ont tourné sur Curie (TGCC) et Jeanzay (IDRIS) est là : http://webservices2017.ipsl.fr/interMonitoring/tmp/interMonitoring_plot01_EiRj0s_prod/

Performances

IPSLCM6.1.11-LR

A retenir pour IPSLCM6.1.11-LR :

  • 20% plus lent que sur Irene-SKL à nombre de coeurs équivalent
  • le dépeuplement x2 permet d'aller 60% plus vite
  • les noeuds dédiés pour XIOS sont nécessaires lorsqu'il y a beaucoup d'IOs.

Les détails :

  • IOs standards (sans workflow CMIP6) :
    • Irene AMD sur 976 coeurs : 17 SYPD
    • Irene AMD sur 976 coeurs dépeuplés (= 1952 coeurs) : 28 SYPD
    • Rappel : Irene SKL sur 976 coeurs : 21 SYPD
  • IO CMIP6 (sans noeud dediés à XIOS = sur un même noeud il y a des process NEMO et XIOS)
    • Irene AMD sur 976 coeurs : 10 SYPD
    • Irene AMD sur 976 coeurs dépeuplés x 2 (= 1952 coeurs) : 12 SYPD
    • Irene AMD sur 976 coeurs dépeuplés x 4 (= 3904 coeurs) : 13.5 SYPD
  • IO CMIP6 (avec noeud dédies à XIOS = sur un même noeud il n'y a que des process clients ou serveurs)
    • Irene AMD sur 976 coeurs : 15 SYPD
    • Irene AMD sur 976 coeurs dépeuplés x 2 (= 1952 coeurs) : 24 SYPD
    • Rappel : Irene SKL sur 976 coeurs : 19 SYPD

A noter que les fonctionalités de dépeuplement et d'utilisation de noeuds dédiés pour les serveurs XIOS ont été implémentées dans libIGCM (voir la documentation https://forge.ipsl.jussieu.fr/igcmg_doc/wiki/Doc/ComputingCenters/TGCC/IreneAmd#Useofspecificoptionstoincreasecomputingperformances).

Problèmes rencontrés

  • XIOS : des bloquages ont lieu à l'initialisation et à la finalisation. Le problème vient de la libération des communicateurs qui est "en théorie" une communication globale et donc bloquante. La librairie mpi d'irene-amd semble respecter cette règle alors que la librairie mpi d'irene-skl était moins stricte puisqu'il n'y avait pas de blocage. Ces problèmes de blocage arrivent lorsqu'on utilise plusieurs serveurs XIOS (> 6 serveurs). Ces libérations de communicateurs ont été supprimés dans les versions https://forge.ipsl.jussieu.fr/ioserver/changeset/1867/XIOS/branchs/xios-2.5 et https://forge.ipsl.jussieu.fr/ioserver/changeset/1866/XIOS/trunk.
  • Des instabilités sur les performances ont été constatées.
  • En comparant 2 simulations (en théorie "identiques") des différences sur des pas de temps non consécutifs sont apparues dans le fichier solver.stat de NEMO. Les restarts de fin de simulation sont pourtant bien identiques. Il a été décidé de compiler en mode "fp-model strict" : les différences n'ont plus été constatées depuis mais comme elles apparaissaient aléatoirement (de façon non reproductible) il est difficile de dire si le problème est complètement résolu.

Attachments (1)

Download all attachments as: .zip