wiki:BasculeCCRTTGCC/brainstorming

Agenda des journées de brainstorming
Résultats des journées de brainstorming

  • Points importants, des discussions du 22 novembre 2011:
    • Possibilité de garder les fichiers p86ipsl sur la partie lustre du storedir.
    • Il y aura une plus grande marge de manoeuvre pour le post-traitement sur le nouveau calculateur Curie.
    • Le TGCC demande à avoir la main sur le même bench que celui de l'IDRIS. Dimitri Lecas est en train de rajouter des commandes times dans le bench pour mieux évaluer le temps passé dans chaque partie. Voir wiki:BasculeCCRTTGCC/Bench
    • Possibilité de paramétrer les fichiers devant rester sur le lustre sans copie sur bande en fonction du nom du fichier ou du répertoire (utilisable pour la gestion des fichiers dans la chaine sur SX9 et Titane)
    • Possibilité de création d'un espace tampon supplémentaire pour facilité le déménagement. Cet espace regrouperait les 4PB encore non utilisés (lustre + cccworkdir).
    • Le déménagement se fera par dmnfs – un dmnfs est stocké entièrement sur les mêmes bandes.
    • Tous les comptes seront déménagés même les utilisateurs ne travaillant plus au ccrt
    • Il n'y aura plus d'administrateur cesium à partir de septembre 2012
    • Discussion sur les workflow / question du demon par login ou groupe / question des crontab / python / actuellement installation de unicore sur le centre de calcul
    • Faire attention pour le déménagement de prendre la bonne version de netcdf
    • Problème du bug ncrcat/netcdf -> comment éviter ce genre de bug à l'avenir ? Pour les admin il y a un problème de connaissance des logiciels installés sur les centres. Il faut donc continuer la veille
    • Quel niveau de certitude veut-on pour la fiabilité du déménagement ?
    • Machine déménagement : le déménagement sera donc intégré directement sur une machine (Curie certainement)
    • Actuellement 8 lecteurs de bandes + 4 obsolètes. Vraisemblablement 2 ou 3 lecteurs seront dédiés au déménagement
    • Temps pour décharger une bande ? Ne savent pas
    • 1 bande = 500 G ou 1T en fonction des bandes. En format compressé.
    • Possibilité de queue infinie (semaine(s)) pour le déménagement. /!\ Attention aux pannes machines. Il faut donc gérer la relance du job de pack
    • Possibilité de souplesse sur les petits fichiers. Il faut trouver un compromis.
    • Titane s'arrête mi 2013
    • Discussion sur les tests --> cela implique beaucoup de petits fichiers à conserver. Il faut peut être utiliser la partie lustre sans copie sur bande.
    • Gestion des bandes cassées ???? Au cas pas cas, pas clair pour l'instant.
    • Question de la double copie : à faire au moment du pack / il faut l'accord genci
  • PACK
    • Avant déménagement chaque utilisateur doit décider si ses simulations seront:
      • "tarer" par défaut
      • "tarer" selon la géométrie ccc_archive
      • "packer" (si l'on veut continuer cette simulation ou encore exploiter les sorties)
        • s'il y a des "trous" dans la simulation : remplissage avec des missing value
        • s'il y a des "trous" dans la simulation : tar (pour "redo" ultérieur)
    • Le pack se fera d'un seul tenant sans intervention humaine en cours
    • Si on n'arrive pas à packer on réessaie une fois et sinon on tar
    • Question : que faire des fichiers pour lesquels le pack et le tar ne fonctionne pas (cas très peu probable) ?
      • On les laisse sur l'espace tampon et chaque utilisateur fait son ménage

Point d'avancement au 27 janvier 2011

Nouvelle chaine sur SX9 et titane

  • infos :
    • libIGCM trunk stocke les fichiers en SCRATCHDIR au maximum
    • une première version d'un script de tar des Restart existe
  • Cible visée, sans changer les fichiers card :
    • à la fréquence de rebuild (2Y pour le couplé IPSLCM5A, 1Y pour le MR on garde 2Y?),
    • ajouter l'appel au tar des restart
    • ajouter des ncrcat pour packer les fichiers Output
    • ajouter des tar pour packer les fichiers texte
    • lancer les ts et se en précisant que la période est 1Y au lieu de 1M
    • stockage des Atlas et Monitoring sur CCCWORKDIR
    • ajouter les get de restart regroupés en tar si absent de SCRATCHDIR
  • On fait le point chaque semaine sur l'avancement de cette chaîne

Post-traitements sur titane

  • post-traitements sur titane : soucis dans les versions d'outils nco et C°
  • netcdf4_hdf5 : ni hdf nio netcdf4
  • nco 4.0.8 n'a pas ncap2. module switch ajouté dans libIGCM.
  • vérifier les fichiers d'environnement .atlas et .bashrc du compte commun

Compte commun p86ipsl

  • trusting
    • déménager les informations visibles par dods sur CCCWORKDIR
    • faire tourner le trusting en stockant sur SCRATCHDIR et garder la dernière version en scratchdir
  • fichiers IGCM :
    • recopie sur CCCWORKDIR dès qu'on peut faire des transferts entre curie ou titane et gaya
    • faire les ccc_archive pour avoir une arborescence gérable dans la durée

Déménagement /dmnfs

  • nouvelle présentation le 31 janvier au LSCE

Cahier des charges

Ajouter informations IDRIS : ulam.

Last modified 12 years ago Last modified on 01/27/12 17:59:55

Attachments (4)

Download all attachments as: .zip