wiki:BasculeCCRTTGCC/Prestation_CCRT_TGCC

Version 16 (modified by aclsce, 11 years ago) (diff)

--

Prestation CCRT TGCC

Contexte

L'IPSL produit sur les machines de calcul du CCRT vectorielles et scalaires ainsi que sur les machines scalaires de l'IDRIS des simulations climatiques. Les données produites jusqu'alors par ces simulations étaient stockées sur le système de stockage du CCRT et /ou de l'IDRIS. L'écosystème du CCRT, qui va être intégré au TGCC, évolue et en particulier son système de stockage. C'est dans le contexte de changement de système de stockage que prend place la prestation " Evolution des outils de traitement et de synchronisation des données et audit de la chaîne de calcul de l’IPSL". Cette prestation comprend 3 parties (lots) :

  • Support sur les outils élémentaires de traitement des données
  • Synchronisation des fichiers d ’entrée des modèles entre les centres de calcul utilisés par l’IPSL
  • Audit et évaluation de la chaîne de calcul de l’IPSL

Réunions

Réunion de lancement - 13/06/2012 - LSCE

Les présentations faites lors de la réunion :

Réunion d'acceptation Lot 1 - lancement Lot 3 - 25/10/2012 - TGCC

La présentation faite lors de la réunion : Réunion_de_lancement_Lot3.pdf

Lot 1 : Support sur les outils élémentaires de traitement des données

Fait :

  • Prise en main de l’outil et des données sur le calculateur titane
  • Portage de l’outil sur Curie - passage en configuration réaliste
  • Validation/amélioration/tests de la robustesse
    • Gestion des pannes, reprises, gestion des erreurs
    • Commande d’information sur l’avancement (création de listes + traitement des données)
    • Outil de check données «avant» - «après» (fichiers netcdf)
  • Tests/amélioration des performances
    • Implémentation d’un parallélisme : soumission de plusieurs tâches en parallèles (utilisation d’un outil TGCC)
  • Portage IDRIS
  • Documentation : http://forge.ipsl.jussieu.fr/igcmg/attachment/wiki/BasculeCCRTTGCC/Prestation_CCRT_TGCC/Doc_outil_pack_IPSL_v2.pdf
  • Aide au démarrage de la migration (lien entre le TGCC et l’IPSL)

Documentation

Une documentation de l'outil de traitement des données développé par l'IPSL est disponible là : Doc_outil_pack_IPSL_v2.pdf

Lot 3 : Audit et évaluation de la chaîne de calcul de l’IPSL

Objectif de la prestation

Conformément au cahier des charges, le Lot 3 porte sur l'audit de la chaîne de production (calcul et post-traitement) de l'IPSL. La prestation consistera à évaluer cette chaîne de production :

  • sur les machines du CCRT/TGCC : mercure (calcul + post) et curie (calcul + post)
  • sur les machines de l'IDRIS : vargas (calcul) et ulam (post).

Les critères d'évaluation de l'audit seront la "fiabilité" et l'"efficacité". Le critère de "facilité d'utilisation" n'est pas prioritaire. Il pourra cependant être rediscuté de ce critère là en fin de prestation, en fonction de l'avancement de cette dernière. Il sera fourni en fin du Lot 3, un document décrivant et analysant, suivant ces critères-là, la chaîne de calcul de l'IPSL.

Rapport de l'audit

Le rapport final pourra être décomposé de la façon suivante :

  • Description : une description globale de la chaîne de calcul de l'IPSL. Il ne s'agira pas là de rentrer dans les détails mais plutôt d'introduire les analyses à venir.
  • Analyse : une analyse de la chaîne de calcul sera réalisée.

Le critère de fiabilité sera évalué : il s'agira de déterminer la capacité de la chaîne, sur un machine particulière, à permettre de réaliser une simulation sans avoir besoin d'intervention humaine. Il s'agira aussi, le cas échéant, d'estimer les causes de plantage et le temps passé à résoudre cela. Pour traiter le critère d'efficacité, il s'agira d'évaluer l'adéquation chaîne de calcul/centre de calcul et de mettre en avant les mauvais points en termes de performances.

  • Conclusion : les conclusions attendues sont de plusieurs types :
    • adéquation chaîne de calcul/centre de calcul ET centre de calcul/chaîne de calcul : conseils d'amélioration.
    • idées/conseils pour instrumenter la chaîne afin d'affiner et faciliter les analyses ultérieures de fiabilité.
    • mise en évidence du temps humain/temps machine.

Ce rapport sera destiné à une diffusion interne IPSL et externe (centres de calcul) et servira de base dans les dialogues entre l'IPSL et les centres de calcul.

Détail de la prestation

L'analyse de la chaîne de calcul se fera au travers de simulations "type" de l'IPSL ayant déjà tourné sur les machines du CCRT/TGCC et l'IDRIS. Trois simulations seront étudiées :

  • une simulation avec calcul et post-traitement sur Curie (TGCC)
  • une simulation avec calcul sur Vargas(IDRIS) et post-traitement sur Ulam(IDRIS)
  • une simulation avec calcul et post-traitement sur Mercure (CCRT)

Il sera éventuellement question d'analyser plusieurs simulations ayant tourné sur Curie. Il parait en effet intéressant d'étudier des simulations ayant tourné à des périodes différentes sur un même calculateur. Ce point sera confirmé ultérieurement.

Les données a extraire d'une simulation et permettant l'analyse d'un simulation doivent être déterminées. Elles seraient de plusieurs types :

  • globales (ensemble de la simulation) : temps de restitution , temps d'attente, nombre de jobs,...
  • par type de job : temps de restitution, temps d'attente, nombre de jobs,...
  • par séquence : temps de restitution, temps d'attente, nombre de jobs,...

Le choix pertinent des données à extraire et à analyser est une tâche de la prestation.

Tâches à réaliser

  • prise en main de la chaîne de calcul et formation à son utilisation.
  • lancement et analyse d'une simulation type de 10 ans sur les calculateurs Curie (TGCC) et Vargas-Ulam (IDRIS).
  • choix de l'information utile a extraire d'une simulation.
  • développement de scripts d'extraction de cette information :
    • temps de calcul, temps de restitution, temps d'attente d'un job,...) à partir des scripts de sortie d'une simulation donnée.
    • part des tâches au sein d’un job
  • analyse de la chaîne de calcul suivant les critères d'étude choisis.
  • écriture du rapport

Premiers résultats

  • Présentation des premiers résultats en réunion du groupe Plate-forme IPSL, le 15/11/2012 au LSCE : Audit.pdf

Attachments (8)