wiki:BasculeCCRTTGCC

Version 18 (modified by mafoipsl, 13 years ago) (diff)

--

Bascule CCRT vers TGCC

Août 2011

Prochaine telco : 24/8/2011 11h.

Cette page décrit les étapes nécessaires pour intégrer dans nos chaines de calcul les évolutions dues à la bascule du CCRT vers le TGCC.

Constat

L'utilisation de /dmnfs comme espace de stockage est à revoir. Au TGCC, l'espace fichier : $STOREDIR est un espace d'archivage. Son utilisation doit être l'archivage de fichiers de grande taille.

Le travail à faire est important et un soutien ingénieur est demandé. Il faut convertir la chaine, la tester en grandeur nature, convertir les données existantes et former à tout cela l'ensemble des acteurs.

Evolution de la chaine de calcul

  • Utilisation de l'espace /scratch par les simulations en cours d'execution,
  • Gestion/ménage de l'espace /scratch par la chaine,
  • Output : Ajout d'étape de compactage des fichiers Output (voir outil create_pack).
    • On essaye par 10 ans. Voir calcul dimension.
    • Stockage du résultat dans STOREDIR
  • Analyse : Stockage des fichiers Analyse tels quels sur STOREDIR.
    • Création depuis /scratch ou depuis fichiers Output compactés sur STOREDIR
    • Prévoir accès par dods des fichiers SE et TS.
  • Restart : prévoir sélection d'un fichier par an dans /scratch avant stockage dans STOREDIR
  • Debug :
    • fichiers gardés sur /scratch seulement?
    • seulement les 10 premières années compactés et gardés?
  • ATLAS et MONITORING :
    • fichiers gardés sur /work avec accès par dods.
    • tar et stockage sur STOREDIR
  • Rappel (ajout après relecture 2/8/2011) : besoin d'un espace $TMPDIR par job. Créé et vide au début du job, détruit en fin de job. Besoin pour chaque job de type exécution ou pré/post-traitement.

Questions

  • Est-ce qu'on sait manipuler avec nccat des fichiers de 30, 40 70 et 120 Go?
  • Où peut-on faire des essais? sur curie?

Transition

  • Déplacement des simulations de /dmnfs vers STOREDIR
  • Faut-il avoir toutes les variables (1D et HF) en TS?
  • Output : Besoin d'un outil de type Pack_checker qui prend les répertoires depuis /dmnfs et lance l'outil create_pack pour compacter les répertoires Output
  • Analyse : Besoin d'outils de transferts pour le répertoire Analyse
  • Debug : ménage
  • Restart : sélection de 1/12 et transfert

Dimension des ressources

  • dimension espace /scratch pour les simus : 6 fois 50 ans soit 30 To au départ. Prévoir 50 To l'année suivante.
  • dimension dods ATLAS et MONITORING : 10 To

Outils

  • create_pack :
    • Basé sur create_SE
    • prend 10 ans, fait les nccat, stocke sur STOREDIR
    • extension possible pour les simulations prolongées dans un 2ème temps
    • utilisation depuis /scratch dans la nouvelle chaine ou depuis /dmnfs pour les transferts
  • unpack :
    • basé sur ncks pour extraire et éclater les fichiers selon nomenclature /scratch
  • pack_checker :
    • vérification de l'existence des fichiers Output packés sur STOREDIR
    • lance create_pack depuis /dmnfs

Planning

  • dimension espaces : août 2011
  • test outils :
    • nccat sur fichiers de 148 Go, avec netcdf4 compressé en sorties,
  • présentation IPSL : septembre 2011
  • prototypes outils : septembre/octobre 2011

Evolution à moyen terme

  • faire les simus par an
  • utilisation de l'ioserver pour éviter l'étape rebuild
  • stockage en netcdf4 compressé

Dimension et nombre de fichiers pour une simulation historical : 156 ans

Résolution Pack par 120 mois Pack par 60 mois
96x95x39 nb fichiers 3852 4339
nb fichiers Restart 1404 1404
espace fichiers Restart 88 Go 88 Go
le plus gros 65 Go 32 Go
moyenne 3,5 Go 3 Go
Total espace 13 To 13 To
144x142x39 nb fichiers 3852 4339
nb fichiers Restart 1404 1404
le plus gros 148 Go 73 Go
moyenne 7 Go 6 Go
Total espace 25 To 25 To
espace fichiers Restart 100 Go 100 Go

notes telco 3/8/2011

  • tests faisables sur curie, avec login projet COUAC pour commencer
  • Pas de classe mono particulière, mettre dans les files d'attente par défaut les tests et les post-traitements
  • TMPDIR existera sur curie. Il faudra, bien sûr, faire cd $TMPDIR
  • créer une simu de travail de type historical sur /scratchdir sur curie :
    • avec fichiers vides. Voir /ccc/scratch/cont005/pa0369/foujolsm/TESTS_CCRT/IGCM_OUT/IPSLCM5A/PROD/historical/create_simu_bidon qui crée le répertoire BIDON/$1 avec 91500 fichiers selon l'arborescence IGCM_OUT. Il manque le répertoire des ATLAS.
    • avec fichiers remplis par une vraie simu quand on aura lancé une vraie simu de prod sur curie
  • sept/oct : accès aux répertoires CCRT depuis TGCC et TGCC depuis CCRT ie logins CCRT ouverts

notes telco 7/10/2011

  • TGCC :
    • Voir présentation COMUT
    • STOREDIR, WORKDIR communs aux machines,
      • STOREDIR : archivage in fine des fichiers en nombre réduits et très gros ( 1-> 100 Go)
      • WORKDIR : 1 TO, genre HOME collectif
    • SCRATCHDIR local à chaque machine. Besoin estimé à 50 To par login faisant des simus de production (30 pour commencer?)
      • sur curie :
        • simulations
        • utilisation de SCRATCHDIR pour stockage des simus pendant toute leur vie,
        • utilisation de SCRATCHDIR par les jobs de post-traitements tournant sur curie aussi, stockage des résultats sur STOREDIR
        • chaine modifiée avec outil de pack inclus, stockage des résultats sur STOREDIR
    • dods . Besoin identifié de 3 serveurs :
      • dods petits fichiers stockés sur WORK (et sous forme tarés sur STOREDIR)
      • dods fichiers entre 1 et 100 Go depuis STOREDIR
      • dods/datanode pour publication, des fichiers au format CMOR, sous le login p86cmip5
  • Outil pack :
    • besoin de décrire le besoin en détail et le design :
      • simus longues et très longues, simus haute résolution , ...
      • create_pack, check_pack,
      • TS depuis pack, SE depuis pack, ...
      • IGCM_OUT et SORTIES_CPL_IPSL
      • travail collectif à prévoir mi-octobre/novembre
  • Période intermédiaire :
    • simulation sur titane ou mercure,
    • utilisation de STOREDIR et WORKDIR communs, STOREDIR selon nouvelles règles
    • accès à /dmnfs en lecture seulement
  • Déménagement :
    • Dès l'ouverture des accès à STOREDIR, déménager les fichiers utilisés par le serveur dods/datanode
    • le CCRT déménagera les fichiers des autres communautés : 1,5 Po
    • Pour nous, déménagement avec inclusion outil pack dans un 2ème temps, à commencer au plus tard en février 2012
    • login exemple : p24luc
  • Soucis actuels :
    • surcharge ponctuelle de cesium en interactif. trop de find, ls , rsync simultanés Vérification de l'ouverture des accès vers ciclad depuis noeuds de calcul cesium
    • surcharge structurelle permanente :
      • transferts cesium et SX9 -> /dmnfs majoritaires
      • ccc_archive va être suspendu pour voir si cela va mieux (retour à situation été 2010?)
    • ccc_archive : enregistrement des commandes et passage ultérieur, sous le monitoring du CCRT pour limiter le nb de lecteurs utilisés. Explication à faire aux utilisateurs de ccc_archive
    • déménagement : tar par sous-répertoires pour limiter les fichiers résultats (entre 1 et 100 Go)

Prochaine telco : 4/11/2011 9h30

Attachments (2)

Download all attachments as: .zip