Version 158 (modified by mafoipsl, 17 years ago) (diff) |
---|
IPSLCM4_v2 configuration
Le modèle couplé IPSLCM4_v2 pour les nouveaux utilisateurs
- Accès à la documentation :
- Le cours (21 janvier 2008) est disponible en ppt ou en pdf
- Description de l'accès au couplé IPSLCM4_v2 dans (login : ipsl, passwd : vivaipsl) la documentation libIGCM
- Les commandes à lancer pour accéder, compiler et excéuter une première simulation avec le couplé IPSLCM4_v2 sont décrites là
Table des matières
- Modifications IPSLCM4_v2 3 Avril 2008
- Modifications IPSLCM4_v2 7 Février 2008
- Modifications sur brodie à l'IDRIS depuis le 15 novembre 2007
- Résumé des différences entre IPSLCM4_v1 (IPCC) et IPSLCM4_v2
- Tag IPSLCM4_v2_1 posé sur la configuration IPSLCM4_v2
- Tests réalisés avec la version IPSLCM4_v2
- Accès, compilation, exécution de la configuration IPSLCM4_v2
- Equilibrage de charge : fichier Bands
- Mise en place de la configuration IPSLCM4_v2
- Administration SVN de la configuration IPSLCM4_v2
- Erreurs et remèdes
- Questions/Réponses
- Redémarrage depuis des fichiers créés par un couplé IPSLCM4_v1
- Redémarrage depuis des fichiers créés par un couplé IPSLCM4_v1_OASIS3
- Comment remettre en route une compilation de LMDZ après recopie d'un répertoire complet sur un autre
- Comment avoir autant de fichiers de sorties texte LMDZ que de taches lancées en parallèle
- Comment déboguer le couplé avec totalview sur mercure
- Contrôle Qualité du couplé IPSLCM4_v2
Modifications IPSLCM4_v2 3 Avril 2008
Modification IPSLCM4_v2 le 3 Avril 2008
- Climatologie non validée à toute résolution.
- tag IPSLCM4_v2_2 pour les fichiers CONFIG. Voir [302] et [301].
- pmagic=0.02 dans gcm.def_LMD144142 pour la résolution 144x142. Voir : [283].
- cvl_corr=1.002 pour la résolution 144x142. Voir : [283].
- cvl_corr=1.0 pour la résolution 144x96. Voir : [279].
- ok_dynzon=n Voir : [288].
- Ajout de dynzon dans les fichiers manipulés par create_SE. Voir : [297].
- Paramétrage des sorties :
- Résolutions ajoutées : 44x43 et 72x45. Compilation OK, fichiers d'entrée (aerosols) non vérifiés et fichiers Bands non existants. Voir [210].
- tag LMDZ4_V3_4 pour LMDZ. Voir [298] et détails plus loin.
- tag OPA repoussé (plus de messages à la compilation indiquant des différences de taille de common). Voir #37 et #38.
- tag ORCHIDEE : orchidee_1_9_2. Voir [299] et informations sur le projet ORCHIDEE : http://forge.ipsl.jussieu.fr/orchidee/
- libIGCM : version 1.0. Voir [300].
- Voir la version 1.0 de libIGCM
- Compte commun utilisé à l'IDRIS et au CCRT :
- fichiers d'entrée, utilitaire rebuild, ...
- Attention, fichier LAI2D.nc différent (maillage et interpolation)
- rebuild : version performante sur le NEC SX-8 à l'IDRIS et au CCCRT. Voir #41.
- IOIPSL tag v2_1_2 (3 avril 2008) - Différences avec IOIPSL tag v2_1_2 (23 octobre 2007) :
- modifications sur les axes (ajout de l'attribut pour les axes et suppression dans les variables),
- suppression des associate_file dans les attributs globaux,
- attribut convention "CF-1.1" au lieu de "GDT 1.3",
- simplification de la gestion des buffer dans histcom et restcom (résultats identiques, vérifié sur brodie)
- remise en route des zooms dans histcom,
- impression d'un message de warning si mauvaise utilisation de calendar (utilisation d'une information non renseignée),
- overwrite_time opérationnel dans restcom
- large utilisation de fonctionnalités Fortran 90 dans stringop et getin.
- Accès aux sources par SVN . Voir IOIPSL
Modifications LMDZ entre les tags LMDZ4_V3_3 et LMDZ4_V3_4
Tag LMDZ4_V3_4 sur la branche LMDZ4_V3_patches (la référence du couplé). Les différences par rapport au tag précédent sont:
- parametre ok_dynzon (n par défaut) pour avoir ou non les fichiers de moyennes zonales des transports. Voir :
- Sorties aérosols : write_histmth.h
Modifications LMDZ entre les tags LMDZ4_V3_2 et LMDZ4_V3_3
Tag LMDZ4_V3_3 sur la branche LMDZ4_V3_patches (la référence du couplé). Les différences par rapport au tag précédent sont:
- sorties ISCCP validées. Sorties mensuelles, échantillonnage 3 heures.
- petite inversion de boucle dans isccp_cloud_types.F pour aller + vite
- "CFisation" d'un certain nombre d'unités pour les hist*
- le travail de Yann sur dynzon :
- création du fichier dynzon dans la version parallèle de LMDZ
- "débranchement" de dyn_hist, dyn_histv, dyn_hist_ave
- dynzon désactivé par défaut. Coût CPU ~7% en plus. Pour l'activer utilisez (depuis le 26 Mars 2008) le parametre ok_dynzon.
- rugoro :
- le rugoro est forcé à zéro dans physiq.F. Voir différences physiq.F
- les suggestions de Jean-Louis pour rugoro. Mise à la valeur 1.E-5 au minimum avant calcul diagnostics, seuillage de z0 sur glace de terre :
- Voir différences surf_landice_mod.F90
- Voir différences pbl_surface_mod.F90
- un parafilt.h qui colle pour 144x142 (la résolution Ensembles). Voir différences parafilt.h
Modifications IPSLCM4_v2 7 Février 2008
Modification IPSLCM4_v2 le 6 février 2008
Modifications LMDZ entre les tags LMDZ4_V3_1 et LMDZ4_V3_2
Tag LMDZ4_V3_2 sur la branche LMDZ4_V3_patches (la référence du couplé). Les différences par rapport au tag précédent sont:
- la compatibilité des sorties avec ENSEMBLES. (quelques unes encore à rajouter) voir #39
- quelques inconsistences entre niveaux de sorties et type de run amenant au pire à un plantage. Voir #34 et #35
- la possibilité de faire tourner le même executable en forcé et en couplé. Voir #29
- une meilleure prise en compte des dépendances des modules pour la compilation. Voir modif create_make_gcm
- une "verrue" pour contourner le plantage dans coefcdrag dû à une division par 0. Voir #26
- la prise en compte du facteur pmagic dans le calcul de l'albédo. Voir #36
- la reprise en compte des sorties aérosols. Voir modifs ini_histmth.h et write_histmth.h
Modifications sur brodie depuis le 15 novembre 2007
- svn cassé entre le 15 et le 20 novembre 2007
- compilation sur brodie à faire en interactif (comme sur mercure)
- clé RSA changée
1) La commande svn a été en panne entre le 15 et le 20 novembre. Celle qui marche est dans le répertoire : /local/bin/svn répertoire par défaut dans le PATH de chacun. 2) Pour compiler le couplé, la compilation en batch plante mais ... Surprise, il n'est plus nécessaire de compiler LMDZ en batch, donc il faut maintenant compiler le couplé en interactif. Cela prend 30 mn comme d'hab. Pour cela il faut faire : gmake Pour compiler une autre résolution que ORCA2xLMD9671, il faut faire : gmake ORCA2xLMD144142 comme sur mercure. 3) clé RSA Avec toutes ses modifs, la clé RSA de brodie a changé.
Différences IPSLCM4_v1 et IPSLCM4_v2
Résumé des différences entre IPSLCM4_v1 (IPCC) et IPSLCM4_v2
- La climatologie n'est pas encore totalement au point. Il faut s'attendre à des modifications prochaines. Voir aussi réunions wiki:CplIpsl
Modèles
- LMDZ4 V3 1
- ORCHIDEE 1.9.1
- LMDZ et ORCHIDEE en parallèle par défaut
- Seule différence pour OPA : flxrnf, version de novembre 2007, tag ipslcm4_v2
- Des nouveaux poids ont été générés pour fermer le bilan d'eau
Outils et environnement
- OASIS3 (Attention! changement de format des fichiers)
- Compilation de LMDZ par FCM. Voir le site officiel de FCM
- Nouveaux scripts (libIGCM v 0.9). Voir Documentation libIGCM
- Lancement de l'exécution par MPI-1 (par défaut maintenant) ou MPI-2 (ancienne technique peu portable)
- Possibilité de faire les simulations par bloc d'une année :
- Mettre PeriodLength=1Y dans le fichier EXP00/config.card
- Attention les résultats sont différents en lançant 1 an à la fois ou 12 fois un mois (soucis de restart). Voir plus d'informations là
- Lorsque les post-traitements sont lancés (paramètre SeasonalFrequency=10Y de config.card) les fichiers sont mis sur les serveurs http://dodsp.idris.fr/ et/ou http://dods.extra.cea.fr/data/ tous les 10 ans.
- Gestion des sources par SVN sur la machine forge.ipsl.jussieu.fr :
- IOIPSL v2_1_1 géré par SVN
- Gestion de modipsl par SVN. Attention! accès différent.
- Gestion de la configuration IPSLCM4_v2 par SVN (fichiers d'entrée : AA_make, PARAM, COMP, ...
Documentation
- Le cours est accessible en ppt et en pdf
- L' accès à la configuration IPSLCM4_v2 est décrit dans la documentation libIGCM
- Le mémo des commandes à passer pour accéder, compiler et lancer une simulation IPSLCM4_v2 est aussi là
Calculateurs
- Tests sur brodie (IDRIS), mercure (CCRT vectoriel) et platine (CCRT scalaire: 8, 16 et 24 cpus)
- Validations sur 10 ans au moins sur brodie et mercure
- Nombre conseillé de processeurs :
- Par défaut 4.
- Conseillé pour la résolution par défaut ORCA2xLMD9671, soit 3 pour LMDZ/ORCHIDEE et 1 pour alternativement OPA et OASIS.
- Le fichier d'équilibrage de charge existe : Bands_96x71x19_3prc.dat
- A changer par 6 (config.card JobNumProcTot) pour les résolutions ORCA2xLMD14496 et ORCA2xLMD144142, soit 5 pour LMDZ/ORCHIDEE.
- Les fichiers d'équilibrage de charge existent : Bands_144x96x19_5prc.dat et Bands_144x142x19_5prc.dat
- Voir aussi les informations sur le fichier Bands
- Par défaut 4.
Validation
- 4 résolutions différentes sont proposées :
- ORCA2xLMD7245
- ORCA2xLMD9671 (par défaut)
- ORCA2xLMD14496
- ORCA2xLMD144142
- D'autres résolutions sont en cours de mise en oeuvre :
- ORCA2xLMD4443
- ORCA2xLMD444315
- ORCA2xLMD444311
- Deux résolutions pour le dernier glaciaire sont également en cours de mise en oeuvre :
- ORCA2lgmxLMD7245
- ORCA2lgmxLMD9671
- Validation de la résolution ORCA2xLMD9671 :
- Les paramètres physiques par défaut sont ceux de la simulation : PDCTLV2 (site MC2)
- Travail de réglage de la physique encore en cours. Voir réunions wiki:CplIpsl.
- Validation de la résolution ORCA2xLMD144142 :
- Le stream2 d'Ensembles (réalisé par S Denvil) se fait à cette résolution. Décision de décembre 2007.
- Les simulations en résolutions 144142 sont disponibles là : Climatology
- Les autres résolutions sont disponibles pour information et des essais sont en cours.
- Conservation de l'eau vérifiée pour les résolutions 96x71, 144x96 et 144x142
Qualité
- Résultats identiques mercure-brodie pour la résolution ORCA2xLMD9671.
- Initialisation des variables à "nan" pour LMDZ sur mercure et brodie.
- Nombre d'erreurs permises avant plantage mis à 0 sur mercure et brodie.
- Voir aussi Contrôle le détail des tests Qualité du couplé IPSLCM4_v2
Tag Posé le 17 octobre 2007
Tag IPSLCM4_v2_1 posé sur la configuration IPSLCM4_v2
- Le Tag IPSLCM4_v2_1 a été poussé ce 12 novembre 2007 pour prendre en compte les bons pas de temps pour LMDZ à la résolution 144x96x19 (day_step=720 et pas 960), puis pour prendre en compte dans physiq.def le nouveau paramètre aer_type (actuel). Voir [200] et [203].
- Le Tag IPSLCM4_v2_1 a été posé ce 17 octobre 2007. Voir détail des commandes passées dans le ticket:20
- Les tests ont été systématiquement faits sur mercure et brodie sur 4 processeurs. Les tests ont démarré sur platine (CCRT, Bull) sur 8, 16 et 24 processeurs.
- Le modèle récupéré permet une simulation type 2L20 ou PDCTLV2. Voir le site MC2 pour PDCTLV2
- Depuis [195], un paramètre de physiq.def permet de préciser le type d'aérosols : actuel ou preind ou scenario. Il est a actuel par défaut pour le couplé IPSLCM4_v2.
Tests réalisés depuis juillet 2007 avec la version IPSLCM4_v2
Attention! Ces tests n'ont pas été faits avec la bonne version de flxrnf dans OPA. flxrnf est à jour depuis le 13 novembre 2007.
Légende
On a mis en italiques ce qui a été fait à la main et n'est plus utile maintenant car intégré par défaut dans la configuration IPSLCM4_v2.
Résolution 96x71
- La configuration IPSLCM4_v2 est en cours de validation/vérification :
- Vérification dite de l'été
- 10 ans sur mercure et brodie sur 4 (3 pour LMDZ/ORCHIDEE + 1 pour OASIS/OPA) et 6 (5+1) processeurs, depuis états initiaux (sans restart), avec atlas et post-traitements.
- Simulation à comparer à 2L24 ?
- Anciens poids
- Exemple inclus dans la documentation libIGCM
- Cours revu 2007 (pdf)
- Nouveauté (23 août 2007) : Il y a 4 processeurs par défaut. Pour modifier le nombre de processeurs, changer dans config.card le paramètre JobNumProcTot, juste avant de lancer la commande ins_job.
- Plus nécessaire depuis le 23 août 2007 mais utile pour vérification. Pour avoir 4 processeurs en tout (3 pour LMDZ/ORCHIDEE et 1 pour OASIS/OPA successivement), il faut mettre à 4 le paramêtre PBS_NUM_PROC_TOT dans le Job :
#PBS -v PBS_NUM_PROC_TOT=4
- Vérification octobre 2007
- tag LMDZ4_V3_1 et orchidee_1_9_1
- poids v4 pris sur compte commun IDRIS
- 10 ans sur brodie
- Voir atlas 1ère décennie là
- Reste à vérifier les fichiers de sortie de LMDZ
- Vérification dite de l'été
- Les tests de Sébastien Denvil avec IPSLCM4_v2 en parallèle sont sur mercure et brodie (PDCTLV1, PDCTLV2, PDCTLV3, PDCTLV4).
- Ces tests sont la continuité des runs FH décrits dans la page wiki climatology et ont vocation à permettre l'équilibrage du modèle avec le nouvel Orchidée en incluant les améliorations liés à la conservation de l'eau.
- Tests réalisés avec IPSLCM4_v2. PDCTLV3 et PDCTLV4 ont des sources modifiées pour fmagic (libf/phylmd/albedo.F).
- On utilise les nouveaux poids, le correctif cvl_corr et les dernières modifications de Olivier dans OPA/SRC_ORCA/flxrnf.F (--> idem HH20D).
- Tests avec les *.def de FH13 et ceux de 2L20, avec et sans l'utilisation du fmagic. Le fmagic est issu de tests réalisés en mode forcé LMDZ4OR par Josefine Ghattas.
Experience Machine *.def fmagic Accès aux résultats PDCTLV1 Mercure FH13 1.0 PDCTLV1 PDCTLV2 Mercure 2L20 1.0 PDCTLV2 Réglage retenu pour tag IPSLCM4_v2 PDCTLV3 Brodie FH13 1.17 PDCTLV3 PDCTLV4 Brodie 2L20 1.17 PDCTLV4
- Tests comparables à HH202 et VV202, nouveaux poids v4, même IPSLCM4_v2, aérosols constants 1980 :
- 2L202 avec cvl_corr=1.02
- 2L202B avec cvl_corr=1.00 Garder cette valeur pour la résolution 96x71
- version 22 septembre 2007
- 100 ans fait (1860-1959)
- 2L20C - couplé IPSLCM4_v2 en 96x71, démarrage depuis Levitus pour l'océan
- etat au 17 décembre 2007 :
- tourne sur mercure
- 19 décennies faites (1860,2049)
- recopié sur mc2
- Voir les ATLAS disponibles
- etat au 17 décembre 2007 :
- 2L202D - couplé IPSLCM4_v2 en 96x71, démarrage depuis 2090 pour l'océan, 2094 (2L24) pour coupleur
- etat au 17 décembre 2007 :
- tourne sur mercure
- /work/cont003/p86maf/2L20C/modipsl/config/IPSLCM4_v2/EXP202D
- 3 décennies faites (1860,1889)
- recopié sur mc2
- Voir les ATLAS disponibles
- etat au 17 décembre 2007 :
- Tableau des vérifications :
Machine nb procs Execution 10 ans Mémoire Temps CPU Temps réel Temps rebuild Post-traitements Accès atlas 10 ans Mercure 3 procs 2 ans 1 an en 2h20mn, estimation pour 10 ans : 24h 3.5 gb 1 300 s/mois 10 mn/mois <1 mn Mercure 4 procs OK (manque fichiers sechiba) 10 ans en 16 h 4.1 gb 1 500 s/mois 8 mn/mois 1 mn OK (sauf SRF) 1860_1869 Mercure 6 procs OK 10 ans en 22 h 4.7 gb 1 900 s/mois 6 mn/mois 1 mn OK 1860_1869 Brodie 4 procs OK 10 ans en 23 h 4.1 gb 1 600 s/mois 9 mn/mois 2 mn 4ème relance ... 1860_1869 Brodie 6 procs OK 10 ans en 26 h 4.7 gb 2 000 s/mois 8 mn/mois 4 mn OK 1860_1869
- Fichiers résultats :
- Faut-il sauvegarder les fichiers histrac? Non
- Atlas
- IDRIS :
- Problème récurrent sur rhodes : Exceeds the processor limit value of 2 processors, using 3(ou 4) processors. Réglé le 23 août 2007. Voir par exemple : la modif dans MO2SE
- Réglé en octobre 2007. Pour ouvrir les accès dods. Il faut actuellement passer les commandes suivantes :
rhodes : cd $HOMEGAYA/IGCM_OUT/IPSLCM4_v2/JobName rhodes : chmod -R ugo+rX * rhodes : rlogin gaya gaya : cd IGCM_OUT/IPSLCM4_v2/JobName/ATLAS gaya : dods_cp SE* DODS/pub/monlogin/JobName/ATLAS
- Mercure :
- Manque les sorties sechiba. Corrigé depuis mais absent de cette simu.
- Réglé en octobre 2007. Pour ouvrir les accès dods, il faut actuellement passer les commandes suivantes :
mercure : cd $DMFDIR/IGCM_OUT/IPSLCM4_v2/JobName/ATLAS mercure : dods_cp SE* public/monlongin/JobName/ATLAS/
- IDRIS :
- Performances rebuild (correctes).
- Equilibrage de charge (par défaut dans IPSLCM4_v2):
- Pour optimiser l'équilibrage entre les processeurs, on peut utiliser le fichier : Bands_96x71x19_3prc.dat.
- On passe de 520 s de temps elapsed par mois de simulation à 480 s.
- Dans run.def, ajouter : adjust=n
- Ajouter dans COMP/lmdz.card :
List= ... (${SUBMIT_DIR}/PARAM/Bands_96x71x19_3prc.dat, .), \ ...
- Détail des performances sur brodie :
- 4 processeurs en tout (#PBS -v PBS_NUM_PROC_TOT=4)
$ jar DATE QUEED START END USER NQSID REQNAME QUEUE SYS-CPU USER-CPU ELAPS MAXMEM MFLOPS Jul27 14:16 27/14:16 27/14:32 rpsl003 79746 V5PAR4A p4t1 58.30 1959.00 969 4115 2422.69 (1 mois) Jul27 14:32 27/14:33 27/14:45 rpsl003 79774 V5PAR4A. p4t1 67.29 1650.55 747 3731 2808.20 Jul27 14:45 27/14:46 27/14:58 rpsl003 79796 V5PAR4A. p4t1 53.55 1740.28 755 3731 2693.33 Jul27 15:45 27/15:45 27/17:31 rpsl003 79884 V5PAR4A p4t2 346.50 15661.05 6367 3732 2725.76 (12 mois) Jul31 12:11 31/12:12 31/14:38 rpsl003 85421 V5PAR4A p4t2 444.43 20192.57 8768 4115 2818.98 Jul31 14:38 31/14:39 31/16:51 rpsl003 85610 V5PAR4A. p4t2 437.25 19813.50 7958 3732 2860.91 Jul31 16:51 31/16:52 31/19:15 rpsl003 85840 V5PAR4A. p4t2 447.04 20095.13 8584 3732 2810.98 Jul31 19:15 31/19:15 31/21:34 rpsl003 86018 V5PAR4A. p4t2 458.18 20249.79 8323 3732 2788.00 Jul31 21:34 31/21:34 31/23:52 rpsl003 86201 V5PAR4A. p4t2 437.25 19806.21 8249 3732 2850.05 Aug01 02:07 01/02:07 01/04:19 rpsl003 86513 V5PAR4A. p4t2 429.75 19431.98 7905 3732 2906.21 Aug01 04:19 01/04:20 01/06:40 rpsl003 86648 V5PAR4A. p4t2 421.27 19532.56 8367 3732 2886.10 Aug01 08:57 01/08:59 01/11:12 rpsl003 86908 V5PAR4A. p4t2 443.13 19773.71 7967 3732 2856.36
- 6 processeurs en tout (#PBS -v PBS_NUM_PROC_TOT=6)
$ jar DATE QUEED START END USER NQSID REQNAME QUEUE SYS-CPU USER-CPU ELAPS MAXMEM MFLOPS Jul27 12:50 27/12:50 27/13:07 rpsl003 79636 V5PAR6 p6t1 64.21 2363.78 1014 4691 2012.56 (1 mois) Jul27 13:07 27/13:07 27/13:27 rpsl003 79662 V5PAR6.2 p6t1 57.73 1871.88 1162 4292 2504.26 Jul27 13:27 27/13:27 27/13:39 rpsl003 79683 V5PAR6.3 p6t1 62.05 1959.52 723 4292 2395.86 Jul27 13:39 27/13:39 27/13:56 rpsl003 79701 V5PAR6.4 p6t1 59.98 1858.24 1007 4292 2523.05 Jul27 14:17 27/14:18 27/14:30 rpsl003 79748 V5PAR6.6 p6t1 60.39 1858.15 729 4292 2532.87 Jul27 14:30 27/14:31 27/14:43 rpsl003 79770 V5PAR6.7 p6t1 60.08 1855.22 708 4292 2522.69 Jul27 15:05 27/15:05 27/15:26 rpsl003 79822 V5PAR6.9 p6t1 62.51 2013.15 1273 4292 2330.72 Jul27 19:50 27/19:50 27/22:12 rpsl003 80248 V5PAR6.2 p6t2 489.94 24106.43 8500 4292 2356.16 (12 mois) Jul28 02:50 28/02:51 28/05:06 rpsl003 80731 V5PAR6.5 p6t2 475.42 23233.19 8153 4292 2439.10 Jul28 07:20 28/07:20 28/09:30 rpsl003 81014 V5PAR6.8 p6t2 469.04 22176.01 7824 4292 2555.10 Jul28 14:12 28/14:12 28/14:34 rpsl003 81414 V5PAR6.1 p6t2 98.51 3746.33 1329 4292 2493.26 (1 mois)
- 4 processeurs en tout (#PBS -v PBS_NUM_PROC_TOT=4)
Résolution 144x96
HH202
- Test de IPSLCM4_v2
- Brodie : /workdir/rech/psl/rpsl003/HH20_v2
- Stoppé à 51 ans (07/1910). Voir STOP in hydrolc_waterbal" dans le fichier $HOMEGAYA/IGCM_OUT/IPSLCM4_v2/HH202/CPL/Debug/HH202_19100701_19100730_out_oasis. 12/09/2007 : Poursuivi avec : check_waterbal ligne 39 de hydrolc placé à .FALSE. Idem sur VV202.
- Résolution 144x96
- Attention! day_step=960 dans cette simulation (comme HH20 réalisée en 2005).
- Or, depuis les tests de mise en route faits par Ionela en forcé en 144x142 avant VV20, on s'est aperçu que on tenait en 144x142 avec day_step=720. On garde donc day_step=720 pour 144x96 et 144x142. Mis par défaut pour IPSLCM4_v2 le 12 novembre 2007.
- Les temps d'exécution ici affichés sont donc trop importants.
- Modifications pour cette résolution :
- LMDZ4 :
- filtrez : LMDZ4/libf/filtrez/parafilt.h
c 144 96 19 non-zoom: PARAMETER (nfilun=16, nfilus=16, nfilvn=16, nfilvs=16)
- filtrez : LMDZ4/libf/filtrez/parafilt.h
- Compilation :
- job.comp : gmake lmdz14496. Inutile maintenant de modifier le job.comp.
- Pour cette résolution, on fait :
mercure ou brodie : gmake ORCA2xLMD14496
- LMDZ4 :
- Simulation : idem HH20D : Climatology
- Redémarrage depuis HHSTART, date = 20901230, ancien script, fichiers stockés là : /u/rech/ces/rces452/SORTIES_CPL_IPSL. Utilisation de Config.card.OldName.
- modifications dans les sources :
- readsulfate : LMDZ4/libf/phylmd/readsulfate.F ligne 106-107 pour faire un contrôle actuel
IF (iyr .lt. 4850) THEN cyear='1980'
- Inutile maintenant que le parametre type_aer existe dans physiq.def
- physiq : LMDZ4/libf/phylmd/physiq.F décommenter ligne 49, c#define histhf pour avoir les sorties HF
#define histhf
- readsulfate : LMDZ4/libf/phylmd/readsulfate.F ligne 106-107 pour faire un contrôle actuel
- modifications dans les fichiers d'entrée :
- PARAM/physiq.def pour les GES
> co2_ppm = 348. > CH4_ppb = 1650. > N2O_ppb = 306. > CFC11_ppt = 280. > CFC12_ppt = 484.
- Inutile maintenant que ce sont les paramètres par défaut
- PARAM/physiq.def pour le paramêtre correctif de la convection :
cvl_corr=1.02
- Inutile maintenant car inclus dans gcm.def_LMD14496
- PARAM/physiq.def pour les GES
- Nouveaux poids (v4) :
- _v4 dans COMP/oasis.card pour tous les fichiers BoundaryFiles
- dans namcouple_ORCA2xLMD14496, changer le nombre de voisins pour les interpolations Mozaic. Passer de 15, 27, 6, 47 à 15, 27, 333, 48. Fait dans IPSLCM4_v2
- Augmenter la mémoire dans le Job : 9 gb
- Test sur 6 processeurs en tout dont 5 pour LMDZ/ORCHIDEE (#PBS -v PBS_NUM_PROC_TOT=6). Nouveauté : dans config.card, mettre JobNumProcTot=6
- -q multi et PBS_NUM_PROC_TOT=6
- Tableau des performancess :
Machine nb procs Nom Execution Mémoire Temps CPU Temps réel Temps rebuild Post-traitements Accès atlas 10 ans Brodie 6 procs (5 pour LMDZ) HH202_SANS_HF 1 an sans histhf 7.5 gb 4 400 s/mois 17 mn/mois 5-6 mn/mois (TMPDIR) HH202_SANS_HF 2ème année sans histhf 4 700 s/mois 19 mn/mois 8 mn (WORKDIR) HH202 1 an avec histhf reconstruit 7.5 gb 4 400 s/mois 17 mn/mois 45 mn/mois (TMPDIR) HH202 10 ans (avec histhf stocké mais non reconstruit) en 2 jours 7.5 gb 4 400 s/mois 17 mn/mois 7 mn/mois (TMPDIR) OK après modif -l mpp_p A partir de la 4ème décennie : ATLAS 2 procs (LMDZ en mono) HH202M 10 ans en 5 jours 3.8 gb 3 400 s/mois 56 mn/mois 0 OK ATLAS
- Détail des performances sur brodie :
- 6 processeurs en tout (#PBS_NUM_PROC_TOT=6) :
$ jar DATE QUEED START END USER NQSID REQNAME QUEUE SYS-CPU USER-CPU ELAPS MAXMEM MFLOPS Aug08 10:33 08/10:35 08/11:15 rpsl003 97129 HH202 p6t2 88.21 5739.94 2412 7412 2489.40 (1er mois TMPDIR) Aug08 11:15 08/11:15 08/11:43 rpsl003 97173 HH202.2 p6t2 93.22 5029.62 1676 7092 2810.14 (1 mois TMPDIR) Aug08 12:39 08/12:39 08/14:57 rpsl003 97272 HH202 p6t2 341.89 27649.29 8299 6916 3164.37 (6 mois WORKDIR) Aug08 15:26 08/15:26 08/15:53 rpsl003 97462 HH202 p6t2 364.23 4636.17 1567 6916 2952.63 (1 mois) Aug08 17:31 08/18:26 08/21:14 rpsl003 97602 HH202 p6t2 2225.39 29311.92 10078 6916 2801.75 (6 mois)
- 6 processeurs en tout (#PBS_NUM_PROC_TOT=6) :
Résolution 144x142
VV202B (ex VV20_2)
- brodie : /workdir/rech/psl/rpsl003/VV20_v2/
- renommé VV202B, le _ dans les noms de simulations empêche les outils MC2 de fonctionner.
- 30 ans réalisés sur brodie
- Performances :
- entre 45 et 66 mn de temps elapsed par mois simulés
- rebuild : environ 90 mn de temps elapsed (intenables). Voir informations précises là : RebuildPerformances
- 10 ans pour voir l'équilibre
- Plantage sur point océan à salinité négative (83,98) en 1860/09 louche car au premier pas de temps océan.
- Resoumis au delà de 1860/09. Passé. 25 ans au 20 août 2008.
- Performances :
- Job :
- Tests avec (#PBS -v PBS_NUM_PROC_TOT=6). Nouveauté : dans config.card, mettre JobNumProcTot=6
- Mémoire : 10gb
- Modifications pour cette résolution :
- LMDZ4 :
- filtrez : LMDZ4/libf/filtrez/parafilt.h
PARAMETER (nfilun=24, nfilus=23, nfilvn=24, nfilvs=24)
- filtrez : LMDZ4/libf/filtrez/parafilt.h
- Compilation :
- job.comp : gmake lmdz144142. Inutile maintenant de modifier le job.comp.
- Pour cette résolution, on fait :
mercure ou brodie : gmake ORCA2xLMD144142
- LMDZ4 :
- Expérience :
- VV20_2 renommée VV202B par SD (caractère _ interdit des synchronisation mc2/centres de calcul)
- Arrêtée à 30 ans compte tenu des performances de rebuild.
- A comparer directement à VV20 : Climatology
- Etats initiaux :
- Atmosphère : create_etat0_limit
- Orchidée : rien
- Océan : V0START, 30/12/2090
- nouveaux poids (_v4)
- Voir infos détaillées sur les nouveaux poids là : NouveauxPoids
- Job (R_BC_TEST=/u/rech/ces/rces452/IGCM/BC)
- COMP/oasis.card (${R_BC_TEST} et _v4)
- La mémoire augmente aussi. (0.5 GB environ)
- Changer le nombre de voisins. Voir PARAM/namecouple_ORCA2xLMD144142_v4. 30 devient 32 et 7 devient 513. Fait dans IPSLCM4_v2
- OPA :
- modifier OPA/SRC_ORCA/flxrnf.F. Fait dans IPSLCM4_v2
- LMDZ :
- readsulfate : LMDZ4/libf/phylmd/readsulfate.F ligne 106-107 pour faire un contrôle actuel
IF (iyr .lt. 4850) THEN cyear='1980'
- Inutile maintenant que le parametre type_aer existe dans physiq.def
- physiq : LMDZ4/libf/phylmd/physiq.F décommenter ligne 49, c#define histhf pour avoir les sorties HF
#define histhf
- COMP/lmdz.card :
- ajouter sauvegarde fichier histrac dans COMP/lmdz.card (Inutile)
- ajouter sauvegarde fichier Bands_144x142x19_5prc.dat pour équilibrage charge processeurs
- nécessitera adjust=y dans gcm.def quand le fichier existera. Fait pour IPSLCM4_v2
- modifier physiq.def :
- les GES
> co2_ppm = 348. > CH4_ppb = 1650. > N2O_ppb = 306. > CFC11_ppt = 280. > CFC12_ppt = 484.
- Inutile maintenant que ce sont les paramètres par défaut dans physiq.def
- et le paramêtre correctif de la convection :
cvl_corr = 1.019
- Inutile maintenant car inclus dans gcm.def_LMD14496
- les GES
- Modifier (à l'IDRIS) la liste des fichiers de sorties pour ne pas recombiner histHF (trop lent) /
[OutputFiles] List= ... (histhf_0000.nc, ${R_OUT_ATM_O_H}/${PREFIX}_HF_histhf_0000.nc, NONE), \ (histhf_0001.nc, ${R_OUT_ATM_O_H}/${PREFIX}_HF_histhf_0001.nc, NONE), \ (histhf_0002.nc, ${R_OUT_ATM_O_H}/${PREFIX}_HF_histhf_0002.nc, NONE), \ (histhf_0003.nc, ${R_OUT_ATM_O_H}/${PREFIX}_HF_histhf_0003.nc, NONE), \ (histhf_0004.nc, ${R_OUT_ATM_O_H}/${PREFIX}_HF_histhf_0004.nc, NONE), \ ...
- readsulfate : LMDZ4/libf/phylmd/readsulfate.F ligne 106-107 pour faire un contrôle actuel
- performances sur brodie
- 6 processeurs en tout (#PBS -v PBS_NUM_PROC_TOT=6). Nouveauté : dans config.card, mettre JobNumProcTot=6 :
$ jar DATE QUEED START END USER NQSID REQNAME QUEUE SYS-CPU USER-CPU ELAPS MAXMEM MFLOPS Jul05 18:46 05/18:46 05/20:02 rpsl003 44143 VV20DP6. p6t2 105.40 7037.79 4552 9220 2677.88
- 6 processeurs en tout (#PBS -v PBS_NUM_PROC_TOT=6). Nouveauté : dans config.card, mettre JobNumProcTot=6 :
VV202
- Sur mercure :
- VV202
- Idem VV20_2, bascule sur mercure pour avoir histHF recombiné dans le flot de l'exécution.
- Stoppé à 41 ans (08/1901). Voir STOP in hydrolc_waterbal" dans le fichier $DMFDIR/IGCM_OUT/IPSLCM4_v2/HH202/CPL/Debug/VV202_19010801_19010830_out_oasis. 12/09/2007 : Poursuivi avec : check_waterbal ligne 39 de hydrolc placé à .FALSE. Idem HH202.
- Stoppé en 1908/03 : STOP in hgardfou avec 25 points imprimés.
- Manip de /2 des tetaxx sur le mois et c'est reparti.
- Tests sur un mois de rugoros à 0 et prints des mêmes points. Suivi avec F Hourdin.
- Stoppé en 1914/02. STOP dans integrd + Print du point avec psol négatif : Au point ij = 844 , pression sol neg. -62590.88734727436
- Reparti avec teta/2 dès le mois de janvier 1914, (fait le 14 novembre 2007). 1940 le 22 novembre 2007.
- Etat au 17 décembre 2007 :
- tourne sur mercure
- 8 décennies faites depuis 1914 (1914-1920,1999)
- recopié sur mc2
- Voir les ATLAS disponibles
- Erreurs rencontrées :
- Message à l'exécution :
**** 96 Loop count is greater than that assumed by the compiler : loop-count=5946 eln=3709 PROG=routing.routing_fetch ELN=3711(400af3ca0)
- Augmenter loopcnt pour la compilation d'Orchidee et le vérifier en regardant le listing dans le fichier i.routing.L. Dans modeles/ORCHIDEE/src_sechiba/Makefile :
F_O = .... -R5 -Wf"-pvctl fullmsg noassume loopcnt=40000 -L summary"
- Message à l'exécution :
Machine nb procs Nom Execution Mémoire Temps CPU Temps réel Temps rebuild Post-traitements Accès atlas 10 ans Brodie 6 procs (5 pour LMDZ) VV20_2 30 ans 10 gb 5 500 s/mois 22 mn/mois 10 mn/mois (sans histHF) OK ATLAS Mercure 6 procs (5 pour LMDZ) VV202 10 ans en 4 jours 12 gb 5 700 s/mois 22 mn/mois (sans adjust=y dans run.def) 2 mn/mois (avec histHF) OK ATLAS
VV202M
- Sur mercure :
- VV202M
- IPSLCM4_v2 tagguée
- Répertoire : /work/cont003/p86maf/VV202M/modipsl/config/IPSLCM4_v2/EXP00
- Modifications dans les sources :
- physiq.F rugoro=0.
- albedo.F pmagic=0.02
< c pmagic -> a mettre dans les .def, avec fmagic < REAL pmagic ! un facteur pour regler l'albedo: on ajoute pmagic a l'abledo < C PARAMETER (pmagic=0.0) ! si =0, ne change rien < PARAMETER (pmagic=0.02) < c < albedo(i) = fmagic*( .03 + .630/( 1. + fauxo*fauxo))+pmagic < albedo(i) = fmagic * 0.058/(rmu0(i) + 0.30)+pmagic
- Etat au 17 décembre 2007 :
- tourne sur mercure
- 4 décennies faites (1914-1920,1959)
- recopié sur mc2
- Voir les ATLAS disponibles
- Voir les ATLAS de comparaisons à 2L20 disponibles
Résolution 192x142
WW202
- mercure : /work/cont003/p86maf/WW202/modipsl/config/IPSLCM4_v2/EXP00
- run en forcé : WF1
- 4 mois fait
- Problème d'écrasement des executables gcm.e entre couplé et forcé
- A faire : corriger LMDZ pour tourner en forcé avec executable créé pour le couplé. Voir #29
- préparation poids interpolation Mozaic dans Oasis. Fait. (O Marti)
- préparation fichiers aerosols. Fait. (S Denvil)
- Modifications pour cette résolution :
- LMDZ4 :
- filtrez : LMDZ4/libf/filtrez/parafilt.h
PARAMETER (nfilun=24, nfilus=23, nfilvn=24, nfilvs=24)
- filtrez : LMDZ4/libf/filtrez/parafilt.h
- Compilation :
- Ajout des cibles ORCA2xLMD192142 et lmdz192142 dans IPSLCM4_v2/AA_make avant de lancer la commande ins_make.
ORCA2xLMD192142 : libioipsl oasis3 liborchidee orca2 lmdz192142 verif echo "ORCA2xLMD192142" >.resol echo "$(LIB_MPI)" >.libmpi ... lmdz192142: (cd ../../modeles/LMDZ4; ./makegcm_fcm -d 192x142x19 -m $(FCM_ARCH) create_etat0_limit ; cp bin/create_etat0_limit_192x142x19_t4_phylmd_seq.e ../../bin/create_etat0_limit.e ; ) (cd ../../modeles/LMDZ4; ./makegcm_fcm -d 192x142x19 -psmile true -v true -parallel true -c $(LIB_MPI) -m $(FCM_ARCH) gcm ; cp bin/gcm_192x142x19_t4_phylmd_para_orch_couple.e ../../bin/gcm.e ; )
- compiler en lancant : sxgmake ORCA2xLMD192142
- Ajout des cibles ORCA2xLMD192142 et lmdz192142 dans IPSLCM4_v2/AA_make avant de lancer la commande ins_make.
- LMDZ4 :
- cvl_cor=1.0
- Modifications dans les sources :
- rugoro = 0. (physiq.F)
- pmagic = 0.02 (albedo.F)
- En machine le 11 janvier 2008. Plantage à 9 mois avec day_step=720.
- Essai :
- day_step = 960
- iphysiq = 20
- Plantage à 3 jours (voir aussi #30) avec ce message d'erreur :
* 274 DPWR -> D1<0 in D1**D2 PROG=hbtm ELN=737(4004c5f1c) **** 99 Execution suspended PROG=hbtm ELN=737(4004c5f1c) Called from pbl_surface_mod.pbl_surface ELN=986(4003f00c8) Called from physiq ELN=5785(4001831d0) Called from calfis_p ELN=833(4000c30d0) Called from leapfrog_p ELN=1077(400055790) Called from gcm ELN=704(400001d80)
- C'est la modification rugoro=0. dans physiq.F qui aboutit à ce plantage.
WW202K
- mercure : /work/cont003/p86maf/WW202K/modipsl/config/IPSLCM4_v2/EXP00
- En machine le 30 janvier 2008. 20 ans fait sans rugoro=0.
Commands to access, compile and run IPSLCM4_v2
Accès, compilation, exécution de la configuration IPSLCM4_v2
Par défaut, la compilation de LMDZ et ORCHIDEE active le mode parallèle.
PATH=$PATH:/TXlocal/pub/svn/svn-1.3.1/bin:/home/rech/psl/rpsl035/fcm/bin # IDRIS only PATH=$PATH:/home/cont003/p86ipsl/fcm/bin # MERCURE only mkdir MY_EXPER cd MY_EXPER svn co http://forge.ipsl.jussieu.fr/igcmg/svn/modipsl/trunk modipsl cd modipsl/util ./model IPSLCM4_v2 ./ins_make cd ../config/IPSLCM4_v2 gmake (or gmake ORCA2xLMD14496 pour cette autre résolution) # job customization vi EXP00/config.card # definir le nom de l'experience à lancer dans le fichier config.card (par defaut JobName=L01). # Si besoin changer le nombre de processeurs (par defaut JobNumProcTot=4). ../../util/ins_job cd EXP00 pwd # .../modipsl/config/IPSLCM4_v2/EXP00 # job verification # check config.card, (DateBegin, DateEnd and restart option) # check Job_JobName (PBS options : time and memory, DRYRUN, NbPeriod) qsub Job_JobName
Bands
Equilibrage de charge : fichier Bands
- Avec le couplé IPSLCM4_v2, 4 fichiers Bands arrivent : Bands_96x71x19_3prc.dat, Bands_144x96x19_5prc.dat, Bands_144x142x19_5prc.dat et Bands_144x142x19_7prc.dat
- Ces fichiers ont été créés sur les NEC (mercure et brodie) pour 3 résolutions, pendant une simulation d'une année consécutive, avec un nombre de processeurs recommandé par résolution.
Résolution Nombre de processeurs Nom du fichier 96x71 4 en tout dont 3 pour LMDZ/ORCHIDEE Bands_96x71x19_3prc.dat 144x96 6 en tout dont 5 pour LMDZ/ORCHIDEE Bands_144x96x19_5prc.dat 144x142 6 en tout dont 5 pour LMDZ/ORCHIDEE Bands_144x142x19_5prc.dat 144x142 8 en tout dont 7 pour LMDZ/ORCHIDEE Bands_144x142x19_7prc.dat
- Ils contiennent le nombre de points/lignes à traiter par chacun des processeurs pour que les temps de calcul soient le plus équilibrés possibles.
- Sur une autre machine ou pour un nombre de processeurs différent ou pour une autre résolution il est nécessaire de créer un autre fichier Bands.
- Pour créer un fichier Bands de manière plutôt automatique depuis le 17 mars 2008 :
- mv EXP00 BANDS
- configurer un run de un an par période de un an : PeriodLength=1Y dans config.card
- dans lmdz.card retirer le fichier Bands de la liste des ParameterFiles
- dans lmdz.card mettre LMDZ_adjust = y
- après le run vous aurez un fichier de Bands dans le répertoire PARAM.
- Pour créer un fichier Bands de manière plutôt manuel :
- Mettre adjust=y dans run.def
- Faire tourner LMDZ un an (afin d'avoir une moyenne sur toutes les saisons). Il créera le fichier détaillant le nombre de points/lignes optimums pour chaque tâche LMDZ.
- Récupérer le fichier Bands_resol_nbprc.dat
- Mettre adjust=n dans run.def
- LMDZ lit alors le fichier Bands
Mise en place de la configuration IPSLCM4_v2
IPSLCM4_v2_PAR (CVS)
Cette configuration a été mise en place pour faire des tests. Elle n'est pas entretenue.
- Mise en place de la compilation de LMDZ et ORCHIDEE en parallèle :
- configuration de test, mise en place sous cvs, pas entretenue.
- ORCHIDEE :
- activer le préprocesseur (option -eP)
- activer la clé CPP CPP_PARA
- Question : doit-on garder les listings de compilation
- LMDZ :
- makegcm_fcm .... -parallel false ... pour create_etat0_limit.e
- makegcm_fcm ... - parallel true ... pour gcm.e
- Cette méthode entraine la compilation en double de LMDZ. Comment l'éviter? Nécessaire pour create_etat0
- OASIS et OPA : pas de changement
- Exécution :
- Le script est basé sur le script de première génération
- La commande rebuild est lancée sur les machines de calcul
- L'exécution demande 6 processeurs : 4 pour LMDZ-ORCHIDEE, 1 pour OASIS, 1 pour OPA. Ceci sera réglé ultérieurement
- FAQ :
- Comment changer le nombre de processeurs pour LMDZ et ORCHIDEE? Variable PBS (PBS_NUM_PROC_TOT utilisé dans le job. Voir libIGCM/AA_job)
- error psol<0. Se rencontre lors d'un redémarrage depuis un restart produit par LMDZ (IPCC). Du à une différence double/float NetCDF dans les fichiers Restart, changé depuis IPCC.
IPSLCM4_v2 (SVN)
- Mise en place de la configuration IPSLCM4_v2 dans modipsl (géré par svn). Voir la version en cours de vérification [ IPSLCM4_v2 enregistrée sous SVN.
- Modifications/Etapes? :
- libIGCM chez l'utilisateur OK
- nouveaux scripts - Voir la doc utilisateur OK
- gestion des post-traitements OK
- configuration gérée par SVN OK
- accès par modipsl (SVN) OK
- tests mercure et brodie OK
- recommandations sur le nombre de processeurs et performances OK
- réglages paramètres d'entrée : PDCTLV2 + 2L20. Attention aux aérosols. OK
- sources OPA : flxrnf. OK
- Voir détail des commandes à passer plus loin
- Attention : Par défaut, la version de LMDZ4 recupérée est la version HEAD qui n'est donc pas tagguée. Les commits réalisés apres le 19/07/2007/17h40 n'ont pas été testés dans cette configuration IPSLCM4_v2. tag LMDZ4_V3_1 mis en place le 5/10/2007. OK
- Ces problèmes sont réglés au 15 novembre 2007. La compilation sur brodie se fait comme sur mercure.
- Il y a 2 problèmes pour la compilation sur BRODIE/IDRIS :
- Il n'y a pas assez de mémoire pour compiler physiq.F dans LMDZ4. Pour cela il faut compiler LMDZ4 en batch. C'est inclus dans la procédure AA_make de brodie. OK
- Sur l'espace WORKDIR il y en plus un problème qui se produit quand on alterne la compilation en batch et en interactif. On n'a pas ce problème sur le HOME. Problème résolu en mettant /bin/pwd partout au lieu de $PWD ou pwd. OK
- OASIS n'était pas compilable en batch. Il fallait enchainer compilation en interactif d'OASIS et en batch de LMDZ. Résolu le 24 Septembre 2007. OK
- Compilation sur brodie :
ins_make cd .../modipsl/config/IPSLCM4_v2 gmake
- Compilation sur brodie pour une autre résolution à choisir parmi : ORCA2xLMD7245, ORCA2xLMD9671 (Defaut) , ORCA2xLMD14496, ORCA2xLMD144142:
ins_make cd .../modipsl/config/IPSLCM4_v2 gmake RESOL=ORCA2xLMD14496
- Il y a 2 problèmes pour la compilation sur BRODIE/IDRIS :
Administration SVN de la configuration IPSLCM4_v2
Commands to access, modify and commit IPSLCM4_v2 CONFIG files (CARD, PARAM) on SVN
Il faut avoir les droits en écriture cad avoir un compte ouvert (USER) sur le serveur forge.ipsl.jussieu.fr et qu'il soit enregistré dans le projet igcmg. Voir : Jacques Bellier, Marie-Alice Foujols ou Martial Mancip.
Tous les commit se font sur les fichiers trunk. Les tags correspondent à des copies à un jour donné selon une convention donnée des fichiers du trunk.
mkdir REPERTOIRE_TEMPORAIRE cd REPERTOIRE_TEMPORAIRE svn co svn+ssh://USER@forge.ipsl.jussieu.fr/ipsl/forge/projets/igcmg/svn/CONFIG/trunk/IPSLCM4_v2 IPSLCM4_v2 ... ... modifs ... svn ci -m 'MESSAGE EXPLICATIF'
Comment poser un tag sur la configuration IPSLCM4_v2
Voir détail des commandes à passer dans le ticket:20
How to be informed when IPSLCM4_v2 files are commited
Il suffit de s'enregistrer sur la liste de messagerie: igcm-dev@…
Voir : http://forge.ipsl.jussieu.fr/mailman/listinfo/igcmg-dev
Erreurs/Remèdes?
Messages liés à la compilation
Message d'erreur | Remède |
fcm: Command not found. | Modifier la variable PATH pour avoir accès à la commande fcm (Voir 2.1.1) |
./i.physiq.f: f90 fatal: Limitation : memory could not allocate. | Sur brodie : soumettre la compilation en batch |
" Voulez-vous vraiment continuer?" apparait dans le listing de compilation batch de LMDZ sur brodie | Effacer le fichier .lock de LMDZ : rm ../../modeles/LMDZ4/.lock puis reprendre la compilation |
Messages lors de l'exécution
Message d'erreur | Remède |
ALLOCATE failed | Augmenter la mémoire demandée par le job. #PBS -l memsz_job=6.0gb |
IGCM_sys_Cp : error. cp /workdir2/rech/psl/rpsl003/V7/modipsl/config/IPSLCM4_v2/EXP00/PARAM/gcm.def_ gcm.def cp: ERROR: Cannot access /workdir2/rech/psl/rpsl003/V7/modipsl/config/IPSLCM4_v2/EXP00/PARAM/gcm.def_: No such file or directory | Le fichier .resol n'existe pas. Sur brodie ne pas oublier de conclure la compilation avec gmake ORCA2xLMD9671 pour le créer |
FATAL ERROR FROM ROUTINE restget / --> The time step requested for variable day_counter / --> is not available in the current file | Mettre SECHIBA_reset_time=y dans orchidee.def |
96 Loop count is greater than that assumed by the compiler : loop-count=5946 eln=3709 PROG=routing.routing_fetch ELN=3711(400af3ca0) | Augmenter le parametre loopcnt lors de la compilation d'ORCHIDEE. modeles/ORCHIDEE/src_sechiba/Makefile F_O = .... -R5 -Wf"-pvctl fullmsg noassume loopcnt=40000 -L summary" |
EXECUTION of : mpirun -np 1 -max_np 5 ./oasis > out_oasis 2>&1 %NQSII(INFO): Batch job received signal SIGXCPU. (Exceeded cpu limit) | Ce message arrive sur brodie quand on a dépassé le temps CPU. Vérifier qu'aucun fichier pour le mois courant (PeriodDateEnd= 1861-11-30) n'existe sur le serveur de fichiers, augmenter le temps limite dans le Job (#PBS -l cputim_job=20:00:00 sur brodie), mettre PeriodState=OnQueue dans run.card et resoumettre le job |
le parametre nfilun utilise pour la matrice matriceun est trop petit ! Le changer dans parafilt.h et le mettre a 16. Pour information, nfilun,nfilus,nfilvn,nfilvs doivent etre egaux successivement a 16 16 16 16 | arrive à la résolution 144x96 si on n'a pas adapté le fichier LMDZ4/libf/filtrez/parafilt.h |
Messages lors des post-traitements
Message d'erreur | Remède |
--Debug1--> Time Series Job already running exit | Soit c'est vraiment le cas, soit changer le paramêtre TimeSeriesRunning=n dans run.card (le passer de y à n) et resoumettre avec DRYRUN=3 pour n'avoir que les post-traitements. Voir aussi la doc utilisateur libIGCM paragraphe 2.3.5 |
Exceeds the processor limit value of 2 processors, using 3 processors. | resoumettre les post-traitements. Parfois jusqu'à 4 fois! |
Questions
Restart IPSLCM4_v1
Redémarrage depuis des fichiers créés par un couplé IPSLCM4_v1
- Ce type de redémarrage est prévu. Voir complément d'information : là
- Modification des noms des répertoires et des noms de fichiers sur les serveurs de fichiers
- Modification du format des fichiers Oasis : passage Oasis 2.4 à Oasis 3
Restart IPSLCM4_v1_OASIS3
Redémarrage depuis des fichiers créés par un couplé IPSLCM4_v1_OASIS3
- Ce type de redémarrage est prévu. Voir complément d'information : là
- Modification des noms des répertoires et des noms de fichiers sur les serveurs de fichiers
Compilation Fcm
Comment remettre en route une compilation de LMDZ après recopie d'un répertoire complet sur un autre?
Il faut supprimer le répertoire libo et refaire l'ensemble de la compilation de LMDZ. C'est plus simple.
pwd # ..../EXP1 cd .. cp -pr EXP1 EXP2 cd EXP2/modipsl/config/IPSLCM4_v2 vi ../../modeles/IOIPSL/src/Makefile # mettre le bon répertoire. On peut aussi faire ins_make pour cela. rm -rf ../../modeles/LMDZ4/libo sxgmake # compilera la résolution décrite dans le fichier .resol ...
Comment avoir autant de sorties texte LMDZ que de taches
Memo pour avoir autant de sorties texte de l'executable LMDZ que de nombre de taches lancées
Testé sur mercure le 87 février 2008.
1) modifier le fichier lancé comme executable dans libIGCM/libIGCM_sys/libIGCM_sys_mercure.ksh Mettre : -p $NUM_PROC_ATM -e /usr/lib/mpi/mpisep.sh ./lmdz.x au lieu de : -p $NUM_PROC_ATM ./lmdz.x 2) ajouter l'option du script au Job (voir details dans /usr/lib/mpi/mpisep.sh) : export MPISEPSELECT=4 3) ajouter std aux fichiers à sauver par LMDZ dans COMP/lmdz.card : Mettre : List= (lmdz.x.prt, ftrace.out.1.0, std) au lieu de List= (lmdz.x.prt, ftrace.out.1.0) Vous récupérerez alors dans le répertoire IGCM_OUT autant de fichiers que de taches (ca peut faire beaucoup...): ATM/Debug/WW202Q_18600101_18600130_std.0:1 ... ATM/Debug/WW202Q_18600101_18600130_std.0:7
Comment deboguer avec totalview
sur mercure
- recompiler avec les options -gv -C vsafe
- Pour LMDZ, cela se fait dans le fichier : LMDZ4/machine/arch-SX8_MERCURE.fcm
- modifier le job de soumission :
- modifier le nombre de processeurs
- mettre MPISUSPEND=OFF
- ajouter le display : export DISPLAY=mercure:X.0 Pour l'obtenir echo $DISPLAY dans une fenêtre interactive.
- ajouter -tv aux options de mpirun
- soumettre le job et attendre l'ouverture de la fenetre totalview
Contrôle Qualité
Contrôle Qualité du couplé IPSLCM4_v2
Comparaison Mono Multi
Comparaison des résultats en mono et en parallèle
- Résultats identiques 1, 3 et 4 CPUs atmosphère :
- 2x5 jours de simulation ORCA2xLMD9671
- mercure, brodie
- Fichiers solver.stat d'OPA strictement identiques
Comparaison Portage
Comparaison des résultats sur différentes machines
- Résultats identiques mercure-brodie :
- tests réalisés le 23/10/2007. Compilateurs FORTRAN90/SX Rev.360 sur mercure et brodie
- 2x5 jours de simulation ORCA2xLMD9671
- Fichiers solver.stat d'OPA strictement identiques
- Octobre 2007 - test avec tags orchidee_1_9_1 et LMDZ4_V3_1
Machine nb procs Execution 10 ans Mémoire Temps CPU Temps réel Temps rebuild Post-traitements Accès atlas 10 ans Brodie 4 procs OK 10 ans en 23 h 4.1 gb 1 600 s/mois 9 mn/mois 11 mn OK 1860_1869
Comparaison Redémarrage
Comparaison des résultats avec et sans redémarrage
- Point au 7 février 2008 :
- Coupleur OK
- OPA8-LIM et LMDZ-ORCHIDEE non
La vérification d'une simulation lancée pour 1 an d'un coup, à la même simulation lancée pour 12 mois successifs : TEST1Y et TEST1M pour le côté coupleur est OK : Le redemarrage est ok de ce cote la cad qu'au 1er fevrier les memes variables sont passees au coupleur qu'elles viennent de l'atm (ou de l'ocean) dans le cas TEST1Y ou bien du restart dans le cas TEST1M. Elles sont aussi interpolees de la meme facon. J'ai verifie aussi que ces memes variables etaient bien transmises a l'ocean grace au fichier cpl_oce*.nc. Je n'ai pas pu faire cette verif cote atm car les fichiers cpl_atm* n'y sont plus. Par contre, ces variables de couplages different bien au 2eme jour de fevrier. En conclusion, ca veut donc dire 2 choses : - en configuration couplée, la restartabilite n'est pas assurée dans l'executable OPA8-LIM - en configuration couplée, la restartabilite n'est pas assurée dans l'executable LMDZ-ORCHIDEE Arnaud Caubel
- Voir aussi quelques informations sur la validation des redémarrages là