Changes between Version 45 and Version 46 of BasculeCCRTTGCC
- Timestamp:
- 02/20/12 09:19:40 (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
BasculeCCRTTGCC
v45 v46 308 308 * 6.1) SX9 : OK depuis ce jour. A retenir : cp possible mais pas ls. 309 309 * 6.2) titane : Soucis déjà signalés. 310 * cp de fichiers, avec original en accès 444, ne marche pas. Correctif attendu en mars seulement. 311 * rm -rf de répertoires ne fonctionne pas (directory not empty!)312 * ls -l prend plusieurs minutes 310 * cp de fichiers, avec original en accès 444, ne marche pas. Correctif attendu en mars seulement. Nécessaire pour la chaîne : empêche les erreurs comme retourner une simulation de même nom. 311 * rm -rf de répertoires ne fonctionne pas avec une liste de 75 fichiers (trusting_xxx) (directory not empty!) 312 * ls -l prend plusieurs minutes (à refaire une fois les file system curie stabilisés) 313 313 * Les files system CCC de curie ont été très instables depuis le passage en Lustre 2.1 et il y a eu des très gros soucis d'alimentation électrique. Les machines du CCRT (titane et SX9) ont été préservées autant que possible. Néanmoins, les arrêts des CCCWORKDIR et CCCSTOREDIR ne peuvent pas passer inaperçus dans ce contexte. 314 314 * Les files system de curie (CCCWORKDIR et CCCSTOREDIR) sont visibles par NFS depuis les machines du CCRT. Pb de dialogue avec le NFS de NEC SX-9 des noeuds de calcul. Une solution de contournement a été mise en place ce jour 315 * On insiste sur le besoin d 'expliquer ce qui se passe, surtout en amont des opérations prévues. On est demandeurs de plus d'informations sur les évènements impactants l'environnement de calcul et de réactivité par rapport aux changements impromptus : variables environnements fausses ou vides, ... Est-ce que les soucis transmis à la hotline remontent bien?315 * On insiste sur le besoin de nous expliquer ce qui se passe, surtout en amont des opérations prévues. On est demandeurs de plus d'informations sur les évènements impactants l'environnement de calcul et de réactivité par rapport aux changements impromptus : variables environnements fausses ou vides, ... Est-ce que les soucis transmis à la hotline remontent bien? 316 316 * La communication sur les pannes se fait au moment de la panne et au moment du redémarrage. Très bien. 317 * Attention à bien prendre en com te dans les rapports de fonctionnement l'ensemble de la chaine. c'est ce qui est fait.317 * Attention à bien prendre en compte dans les rapports de fonctionnement l'ensemble de la chaine. C'est ce qui est fait. 318 318 {{{ 319 319 SX9 : … … 329 329 * prévoir le temps nécessaire aux uns et aux autres pour passer les commandes ccc_archive 330 330 * La proposition de noms de fichiers à plat n'est pas satisfaisante: ~/dmf_import/IGCM_OUT-part0001.tar , suggestion : IGCM_OUT+IPSLCM5A+PROD+piControl+piControl2+OCE+Output+MO-part001 … 331 * 1.3) Point sur le développement de ipsl_pack, date attendu pour ipsl_pack : 15 mars 2012. Le développement des actions de bases de ipsl_pack a commencé. restart, Textes, ATLAS et MONITORING. reste un gros morceauxavec les fichiers Output331 * 1.3) Point sur le développement de ipsl_pack, date attendue pour ipsl_pack : 15 mars 2012. Le développement des actions de bases de ipsl_pack a commencé. restart, Textes, ATLAS et MONITORING. reste un gros morceau avec les fichiers Output 332 332 * 2) comptes en read-only ou plutôt comptes figés : p86cmip5, p24data 333 * Rappel : le passage en read-only par login n'est pas possible. C'est un accord oral de non mouvement de fichiers sur un compte donné. Les mouvements de fichiers ne seront pas repris et donc perdus.333 * Rappel : le passage en read-only par login n'est pas possible. C'est un accord oral de non mouvement de fichiers sur un compte donné. Les mouvements (création, destruction, ...) de fichiers ne seront pas repris et donc perdus. 334 334 * 3) p86ipsl prévu pour mars. Reste à finir de basculer les calculs de trusting produisant actuellement sur DMFDIR. En attente version beta de chaine libIGCM produisant sur CCCSTOREDIR/CCCWORKDIR sur SX9 et sur titane. 335 335 * 4) serveur dods sur espaces CCCWORKDIR et CCCSTOREDIR. OK avec en plus distinction public/prive. Vérifier les performances une fois les filesystem CCCWORKDIR/CCCSTOREDIR stabilisés. … … 340 340 * test en production en cours, avec libIGCM revu (2ème étape 1) aucun transfert de fichier direct sur DMNFS, 2) accès aux fichiers de forcages depuis CCCWORKDIR-p86ipsl )) 341 341 * attention à la facturation des noeuds complets (*8!) Visible sur la compta? 342 * Attention, il faut travailler sur l'environnement des utilisateurs IPSL (p86ipsl) pour séparer session de compilation/calcul (avec netcdf 3.6.3) ou session de post-traitement (netcdf4) car les executions avec netcdf4 plantent sur titane. Exemple de souci de compatibilité entre les outils. A faire par IP LSet support applicatif si on leur demande.342 * Attention, il faut travailler sur l'environnement des utilisateurs IPSL (p86ipsl) pour séparer session de compilation/calcul (avec netcdf 3.6.3) ou session de post-traitement (netcdf4) car les executions avec netcdf4 plantent sur titane. Exemple de souci de compatibilité entre les outils. A faire par IPSL et support applicatif si on leur demande. 343 343 * 7) Installation des logiciels utiles sur curie. A faire une fois la vérification sur titane terminée. 344 * Nouvelle sur les accès à curie et transferts de fichiers curie/IDRIS. En cours. Relance IDRIS à faire par GW.344 * Nouvelles des accès à curie et transferts de fichiers curie/IDRIS. En cours. Relance IDRIS à faire par GW. 345 345 * 8) Cahier des charges. Revu par Arnaud et discuté/transmis à J.N. Richet. 346 * Ajout 'audit' chaine de calcul comme proposé en réunion GENCI/TGCC/CCRT/IDRIS/IPSL du 3 février. 346 347 * A noter ajout des temps du bench TS sur titane en MR. Voir : [wiki:BasculeCCRTTGCC/Bench#Retourstitane1 chiffrage ts titane en MR 10 ans historical] 347 348 * Ce bench est très pratique pour tester les développements des post-traitements de libIGCM, le pack, les versions des outils, les écritures sur /dmnfs ou CCCworkdir/CCCstoredir, ... 348 349 * 9) Datanode ou dods1 349 * Une version du datanode est installé . Souci pour publier un cas test au BADC.350 * L'erreur est la suivante. Le BADC dit que cela ne vient pas d'eux. Le CCRT dit que tout les ports sont ouverts.350 * Une version du datanode est installée. 351 * Souci pour publier un cas test au BADC. L'erreur est la suivante. Le BADC dit que cela ne vient pas d'eux. Le CCRT dit que tout les ports sont ouverts. 351 352 {{{ 352 353 raise ProtocolError(self._url, errcode, errmsg, headers)