Version 19 (modified by mafoipsl, 13 years ago) (diff) |
---|
Bascule CCRT vers TGCC
Août 2011
Prochaine telco : lundi 14 novembre 2011 à 14h00. Numéro d'appel : 0821 230 749
Cette page décrit les étapes nécessaires pour intégrer dans nos chaines de calcul les évolutions dues à la bascule du CCRT vers le TGCC.
Constat
L'utilisation de /dmnfs comme espace de stockage est à revoir. Au TGCC, l'espace fichier : $STOREDIR est un espace d'archivage. Son utilisation doit être l'archivage de fichiers de grande taille.
Le travail à faire est important et un soutien ingénieur est demandé. Il faut convertir la chaine, la tester en grandeur nature, convertir les données existantes et former à tout cela l'ensemble des acteurs.
Evolution de la chaine de calcul
- Utilisation de l'espace /scratch par les simulations en cours d'execution,
- Gestion/ménage de l'espace /scratch par la chaine,
- Output : Ajout d'étape de compactage des fichiers Output (voir outil create_pack).
- On essaye par 10 ans. Voir calcul dimension.
- Stockage du résultat dans STOREDIR
- Analyse : Stockage des fichiers Analyse tels quels sur STOREDIR.
- Création depuis /scratch ou depuis fichiers Output compactés sur STOREDIR
- Prévoir accès par dods des fichiers SE et TS.
- Restart : prévoir sélection d'un fichier par an dans /scratch avant stockage dans STOREDIR
- Debug :
- fichiers gardés sur /scratch seulement?
- seulement les 10 premières années compactés et gardés?
- ATLAS et MONITORING :
- fichiers gardés sur /work avec accès par dods.
- tar et stockage sur STOREDIR
- Rappel (ajout après relecture 2/8/2011) : besoin d'un espace $TMPDIR par job. Créé et vide au début du job, détruit en fin de job. Besoin pour chaque job de type exécution ou pré/post-traitement.
Questions
- Est-ce qu'on sait manipuler avec nccat des fichiers de 30, 40 70 et 120 Go?
- Où peut-on faire des essais? sur curie?
Transition
- Déplacement des simulations de /dmnfs vers STOREDIR
- Faut-il avoir toutes les variables (1D et HF) en TS?
- Output : Besoin d'un outil de type Pack_checker qui prend les répertoires depuis /dmnfs et lance l'outil create_pack pour compacter les répertoires Output
- Analyse : Besoin d'outils de transferts pour le répertoire Analyse
- Debug : ménage
- Restart : sélection de 1/12 et transfert
Dimension des ressources
- dimension espace /scratch pour les simus : 6 fois 50 ans soit 30 To au départ. Prévoir 50 To l'année suivante.
- dimension dods ATLAS et MONITORING : 10 To
Outils
- create_pack :
- Basé sur create_SE
- prend 10 ans, fait les nccat, stocke sur STOREDIR
- extension possible pour les simulations prolongées dans un 2ème temps
- utilisation depuis /scratch dans la nouvelle chaine ou depuis /dmnfs pour les transferts
- unpack :
- basé sur ncks pour extraire et éclater les fichiers selon nomenclature /scratch
- pack_checker :
- vérification de l'existence des fichiers Output packés sur STOREDIR
- lance create_pack depuis /dmnfs
Planning
- dimension espaces : août 2011
- test outils :
- nccat sur fichiers de 148 Go, avec netcdf4 compressé en sorties,
- présentation IPSL : septembre 2011
- prototypes outils : septembre/octobre 2011
Evolution à moyen terme
- faire les simus par an
- utilisation de l'ioserver pour éviter l'étape rebuild
- stockage en netcdf4 compressé
Dimension et nombre de fichiers pour une simulation historical : 156 ans
Résolution | Pack par 120 mois | Pack par 60 mois | |
96x95x39 | nb fichiers | 3852 | 4339 |
nb fichiers Restart | 1404 | 1404 | |
espace fichiers Restart | 88 Go | 88 Go | |
le plus gros | 65 Go | 32 Go | |
moyenne | 3,5 Go | 3 Go | |
Total espace | 13 To | 13 To | |
144x142x39 | nb fichiers | 3852 | 4339 |
nb fichiers Restart | 1404 | 1404 | |
le plus gros | 148 Go | 73 Go | |
moyenne | 7 Go | 6 Go | |
Total espace | 25 To | 25 To | |
espace fichiers Restart | 100 Go | 100 Go |
notes telco 3/8/2011
- tests faisables sur curie, avec login projet COUAC pour commencer
- Pas de classe mono particulière, mettre dans les files d'attente par défaut les tests et les post-traitements
- TMPDIR existera sur curie. Il faudra, bien sûr, faire cd $TMPDIR
- créer une simu de travail de type historical sur /scratchdir sur curie :
- avec fichiers vides. Voir /ccc/scratch/cont005/pa0369/foujolsm/TESTS_CCRT/IGCM_OUT/IPSLCM5A/PROD/historical/create_simu_bidon qui crée le répertoire BIDON/$1 avec 91500 fichiers selon l'arborescence IGCM_OUT. Il manque le répertoire des ATLAS.
- avec fichiers remplis par une vraie simu quand on aura lancé une vraie simu de prod sur curie
- sept/oct : accès aux répertoires CCRT depuis TGCC et TGCC depuis CCRT ie logins CCRT ouverts
notes telco 7/10/2011
- TGCC :
- Voir présentation COMUT
- STOREDIR, WORKDIR communs aux machines,
- STOREDIR : archivage in fine des fichiers en nombre réduits et très gros ( 1-> 100 Go)
- WORKDIR : 1 TO, genre HOME collectif
- SCRATCHDIR local à chaque machine. Besoin estimé à 50 To par login faisant des simus de production (30 pour commencer?)
- sur curie :
- simulations
- utilisation de SCRATCHDIR pour stockage des simus pendant toute leur vie,
- utilisation de SCRATCHDIR par les jobs de post-traitements tournant sur curie aussi, stockage des résultats sur STOREDIR
- chaine modifiée avec outil de pack inclus, stockage des résultats sur STOREDIR
- sur curie :
- dods . Besoin identifié de 3 serveurs :
- dods petits fichiers stockés sur WORK (et sous forme tarés sur STOREDIR)
- dods fichiers entre 1 et 100 Go depuis STOREDIR
- dods/datanode pour publication, des fichiers au format CMOR, sous le login p86cmip5
- Outil pack :
- besoin de décrire le besoin en détail et le design :
- simus longues et très longues, simus haute résolution , ...
- create_pack, check_pack,
- TS depuis pack, SE depuis pack, ...
- IGCM_OUT et SORTIES_CPL_IPSL
- travail collectif à prévoir mi-octobre/novembre
- besoin de décrire le besoin en détail et le design :
- Période intermédiaire :
- simulation sur titane ou mercure,
- utilisation de STOREDIR et WORKDIR communs, STOREDIR selon nouvelles règles
- accès à /dmnfs en lecture seulement
- Déménagement :
- Dès l'ouverture des accès à STOREDIR, déménager les fichiers utilisés par le serveur dods/datanode
- le CCRT déménagera les fichiers des autres communautés : 1,5 Po
- Pour nous, déménagement avec inclusion outil pack dans un 2ème temps, à commencer au plus tard en février 2012
- login exemple : p24luc
- Soucis actuels :
- surcharge ponctuelle de cesium en interactif. trop de find, ls , rsync simultanés Vérification de l'ouverture des accès vers ciclad depuis noeuds de calcul cesium
- surcharge structurelle permanente :
- transferts cesium et SX9 -> /dmnfs majoritaires
- ccc_archive va être suspendu pour voir si cela va mieux (retour à situation été 2010?)
- ccc_archive : enregistrement des commandes et passage ultérieur, sous le monitoring du CCRT pour limiter le nb de lecteurs utilisés. Explication à faire aux utilisateurs de ccc_archive
- déménagement : tar par sous-répertoires pour limiter les fichiers résultats (entre 1 et 100 Go)
Prochaine telco : lundi 14 novembre 2011 à 14h00. Numéro d'appel : 0821 230 749
- DMF se porte bien mieux depuis l'arrêt de ccc_archive.
- Logins GENCI au TGCC, quand ? (pérennisation des données créées sur Curie lors des Prepatory Access).
- Accès au répertoire TGCC/CCRT : quand ?
- Affaires courantes : filtrage ciclad[2] avec les noeuds de calcul Césium.
- Participation du CCRT au brainstorming libIGCM.
- scratchdir sur Titane : catastrophe. Pourquoi ? Des solutions ? Comment ce dysfonctionnement va t'il apparaître dans les statistiques présentées au COMUT, au COPIL et à GENCI ?
- scratchdir sur curie
Attachments (2)
-
Fichiers historical taille var-2.xls
(31.5 KB) -
added by mafoipsl 14 years ago.
fichier excel donnant les tailles de fichiers pour une simulation de type historical
- point_migration_20120503.pdf (139.0 KB) - added by aclsce 13 years ago.
Download all attachments as: .zip