Changes between Version 45 and Version 46 of BasculeCCRTTGCC


Ignore:
Timestamp:
02/20/12 09:19:40 (13 years ago)
Author:
mafoipsl
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • BasculeCCRTTGCC

    v45 v46  
    308308    * 6.1) SX9 : OK depuis ce jour. A retenir : cp possible mais pas ls. 
    309309    * 6.2) titane : Soucis déjà signalés.  
    310        * cp de fichiers, avec original en accès 444, ne marche pas. Correctif attendu en mars seulement. 
    311        * rm -rf de répertoires ne fonctionne pas (directory not empty!) 
    312        * ls -l prend plusieurs minutes 
     310       * cp de fichiers, avec original en accès 444, ne marche pas. Correctif attendu en mars seulement. Nécessaire pour la chaîne : empêche les erreurs comme retourner une simulation de même nom. 
     311       * rm -rf de répertoires ne fonctionne pas avec une liste de 75 fichiers  (trusting_xxx) (directory not empty!) 
     312       * ls -l prend plusieurs minutes (à refaire une fois les file system curie stabilisés) 
    313313   * Les files system CCC de curie ont été très instables depuis le passage en Lustre 2.1 et il y a eu des très gros soucis d'alimentation électrique. Les machines du CCRT (titane et SX9) ont été préservées autant que possible. Néanmoins, les arrêts des CCCWORKDIR et CCCSTOREDIR ne peuvent pas passer inaperçus dans ce contexte. 
    314314    * Les files system de curie (CCCWORKDIR et CCCSTOREDIR) sont visibles par NFS depuis les machines du CCRT. Pb de dialogue avec le NFS de NEC SX-9 des noeuds de calcul. Une solution de contournement a été mise en place ce jour  
    315     * On insiste sur le besoin d'expliquer ce qui se passe, surtout en amont des opérations prévues. On est demandeurs de plus d'informations sur les évènements impactants l'environnement de calcul et de réactivité par rapport aux changements impromptus : variables environnements fausses ou vides, ... Est-ce que les soucis transmis à la hotline remontent bien? 
     315    * On insiste sur le besoin de nous expliquer ce qui se passe, surtout en amont des opérations prévues. On est demandeurs de plus d'informations sur les évènements impactants l'environnement de calcul et de réactivité par rapport aux changements impromptus : variables environnements fausses ou vides, ... Est-ce que les soucis transmis à la hotline remontent bien? 
    316316    * La communication sur les pannes se fait au moment de la panne et au moment du redémarrage. Très bien. 
    317     * Attention à bien prendre en comte dans les rapports de fonctionnement l'ensemble de la chaine. c'est ce qui est fait. 
     317    * Attention à bien prendre en compte dans les rapports de fonctionnement l'ensemble de la chaine. C'est ce qui est fait. 
    318318{{{ 
    319319SX9 : 
     
    329329   * prévoir le temps nécessaire aux uns et aux autres pour passer les commandes ccc_archive 
    330330   * La proposition de noms de fichiers à plat n'est pas satisfaisante: ~/dmf_import/IGCM_OUT-part0001.tar , suggestion : IGCM_OUT+IPSLCM5A+PROD+piControl+piControl2+OCE+Output+MO-part001 … 
    331    * 1.3) Point sur le développement de ipsl_pack, date attendu pour ipsl_pack : 15 mars 2012. Le développement des actions de bases de ipsl_pack a commencé. restart, Textes, ATLAS et MONITORING. reste un gros morceaux avec les fichiers Output 
     331   * 1.3) Point sur le développement de ipsl_pack, date attendue pour ipsl_pack : 15 mars 2012. Le développement des actions de bases de ipsl_pack a commencé. restart, Textes, ATLAS et MONITORING. reste un gros morceau avec les fichiers Output 
    332332 * 2) comptes en read-only ou plutôt comptes figés : p86cmip5, p24data 
    333    * Rappel : le passage en read-only par login n'est pas possible. C'est un accord oral de non mouvement de fichiers sur un compte donné. Les mouvements de fichiers ne seront pas repris et donc perdus.  
     333   * Rappel : le passage en read-only par login n'est pas possible. C'est un accord oral de non mouvement de fichiers sur un compte donné. Les mouvements (création, destruction, ...) de fichiers ne seront pas repris et donc perdus.  
    334334 * 3) p86ipsl prévu pour mars. Reste à finir de basculer les calculs de trusting produisant actuellement sur DMFDIR. En attente version beta de chaine libIGCM produisant sur CCCSTOREDIR/CCCWORKDIR sur SX9 et sur titane. 
    335335 * 4) serveur dods sur espaces CCCWORKDIR et CCCSTOREDIR. OK avec en plus distinction public/prive. Vérifier les performances une fois les filesystem CCCWORKDIR/CCCSTOREDIR stabilisés. 
     
    340340    * test en production en cours, avec libIGCM revu (2ème étape 1) aucun transfert de fichier direct sur DMNFS, 2) accès aux fichiers de forcages depuis CCCWORKDIR-p86ipsl )) 
    341341    * attention à la facturation des noeuds complets (*8!) Visible sur la compta? 
    342     * Attention, il faut travailler sur l'environnement des utilisateurs IPSL (p86ipsl) pour séparer session de compilation/calcul (avec netcdf 3.6.3) ou session de post-traitement (netcdf4) car les executions avec netcdf4 plantent sur titane. Exemple de souci de compatibilité entre les outils. A faire par IPLS et support applicatif si on leur demande. 
     342    * Attention, il faut travailler sur l'environnement des utilisateurs IPSL (p86ipsl) pour séparer session de compilation/calcul (avec netcdf 3.6.3) ou session de post-traitement (netcdf4) car les executions avec netcdf4 plantent sur titane. Exemple de souci de compatibilité entre les outils. A faire par IPSL et support applicatif si on leur demande. 
    343343 * 7) Installation des logiciels utiles sur curie. A faire une fois la vérification sur titane terminée.  
    344     * Nouvelle sur les accès à curie et transferts de fichiers curie/IDRIS. En cours. Relance IDRIS à faire par GW. 
     344    * Nouvelles des accès à curie et transferts de fichiers curie/IDRIS. En cours. Relance IDRIS à faire par GW. 
    345345 * 8) Cahier des charges. Revu par Arnaud et discuté/transmis à J.N. Richet. 
     346   * Ajout 'audit' chaine de calcul comme proposé en réunion GENCI/TGCC/CCRT/IDRIS/IPSL du 3 février. 
    346347   * A noter ajout des temps du bench TS sur titane en MR. Voir : [wiki:BasculeCCRTTGCC/Bench#Retourstitane1 chiffrage ts titane en MR 10 ans historical] 
    347348   * Ce bench est très pratique pour tester les développements des post-traitements de libIGCM, le pack, les versions des outils, les écritures sur /dmnfs ou CCCworkdir/CCCstoredir, ... 
    348349 * 9) Datanode ou dods1 
    349   * Une version du datanode est installé. Souci pour publier un cas test au BADC. 
    350   * L'erreur est la suivante. Le BADC dit que cela ne vient pas d'eux. Le CCRT dit que tout les ports sont ouverts. 
     350  * Une version du datanode est installée. 
     351  * Souci pour publier un cas test au BADC. L'erreur est la suivante. Le BADC dit que cela ne vient pas d'eux. Le CCRT dit que tout les ports sont ouverts. 
    351352{{{ 
    352353   raise ProtocolError(self._url, errcode, errmsg, headers)