Changes between Version 12 and Version 13 of BasculeCCRTTGCC/Prestation_CCRT_TGCC


Ignore:
Timestamp:
10/25/12 14:06:52 (11 years ago)
Author:
aclsce
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • BasculeCCRTTGCC/Prestation_CCRT_TGCC

    v12 v13  
    33== Contexte == 
    44 
    5 L'IPSL produit sur les machines de calcul du CCRT vectorielles et scalaires ainsi que sur les machines scalaires de l'IDRIS des simulations climatiques. Les données produites jusqu'alors par ces simulations étaient stockées sur le système de stockage du CCRT et /ou de l'IDRIS. L'écosystème du CCRT, qui va être intégré au TGCC, évolue et en particulier son système de stockage. C'est dans le contexte de changement de système de stockage que prend place la prestation " Evolution des outils de traitement et de synchronisation des données et audit de la chaîne de calcul de l’IPSL". 
     5L'IPSL produit sur les machines de calcul du CCRT vectorielles et scalaires ainsi que sur les machines scalaires de l'IDRIS des simulations climatiques. Les données produites jusqu'alors par ces simulations étaient stockées sur le système de stockage du CCRT et /ou de l'IDRIS. L'écosystème du CCRT, qui va être intégré au TGCC, évolue et en particulier son système de stockage. C'est dans le contexte de changement de système de stockage que prend place la prestation " Evolution des outils de traitement et de synchronisation des données et audit de la chaîne de calcul de l’IPSL". Cette prestation comprend 3 parties (lots) : 
     6 * Support sur les outils élémentaires de traitement des données 
     7 * Synchronisation des fichiers d ’entrée des modèles entre les centres de calcul utilisés par l’IPSL 
     8 * Audit et évaluation de la chaîne de calcul de l’IPSL 
    69 
    7 == Réunion de lancement - 13/06/2012 == 
     10== Réunions == 
    811 
    9 La réunion de lancement a eu lieu au LSCE. 
     12=== Réunion de lancement - 13/06/2012 - LSCE === 
     13 
    1014Les présentations faites lors de la réunion : 
    1115 - Présentation générale : [attachment:"Presentation_generale.pdf"] 
     
    1317 - Organisation de la prestation : [attachment:"Réunion_de_lancement.pdf"] 
    1418 
    15 == Etat d'avancement (au 03/08/2012) ==  
     19=== Réunion d'acceptation Lot 1 - lancement Lot 3 - 25/10/2012 - TGCC ===  
     20 
     21== Lot 1 : Support sur les outils élémentaires de traitement des données ==  
    1622 
    1723'''Fait :''' 
    18   * gestion des erreurs pour les 2 scripts (listes et pack) 
    19   * tests si "nco" est chargé et si c'est la version 4.1.0. 
    20   * procédure de redémarrage pour le script de listes. 
    21   * visualisation de l'état d'avancement des 2 scripts (listes et pack). 
    22   * option "force" -f ajoutée dans les 2 scripts pour repartir de 0. 
    23   * information sur le temps pris par le traitement de chaque liste dans le script de pack + état d'avancement. Exemple : 
    24  
    25 {{{ 
    26 curie70 - /ccc/cont003/home/dsm/p86caub/SCRIPTS_DEM/TEST_01082012 : ./showPackProgress.sh  
    27 ******************************************* 
    28 simulation : R55A 
    29 ******************************************* 
    30    output_ncrcat : 
    31        R55A_18600101_19041230_1D_histday : COMPLETED at try #1 | time : 209.231 
    32        R55A_18600101_19041230_1M_histmth : COMPLETED at try #1 | time : 38.378 
    33        R55A_18600101_19041230_1M_histrac : COMPLETED at try #1 | time : 27.994 
    34        R55A_18600101_19041230_1M_sechiba_history : COMPLETED at try #1 | time : 2.311 
    35        R55A_18600101_19051230_1M_diaptr : DELEGATE | time : ??? 
    36        R55A_18600101_19051230_1M_grid_T : DELEGATE | time : ??? 
    37        R55A_18600101_19051230_1M_grid_U : DELEGATE | time : ??? 
    38        R55A_18600101_19051230_1M_grid_V : DELEGATE | time : ??? 
    39        R55A_18600101_19051230_1M_grid_W : DELEGATE | time : ??? 
    40        R55A_18600101_19051230_1M_icemod : DELEGATE | time : ??? 
    41    output_tar : 
    42        R55A_18600101_19051230_1M_diaptr : COMPLETED at try #3 | time : 2.053 
    43        R55A_18600101_19051230_1M_grid_T : COMPLETED at try #3 | time : 67.661 
    44        R55A_18600101_19051230_1M_grid_U : COMPLETED at try #3 | time : 47.23 
    45        R55A_18600101_19051230_1M_grid_V : COMPLETED at try #3 | time : 118.514 
    46        R55A_18600101_19051230_1M_grid_W : COMPLETED at try #3 | time : 147.201 
    47        R55A_18600101_19051230_1M_icemod : FAILED at try #3 | time : ??? 
    48    restart_tar : 
    49        R55A_restart_18600101_19051230 : COMPLETED at try #1 | time : 150.825 
    50    debug_tar : 
    51        R55A_debug_18600101_19050101 : COMPLETED at try #1 | time : 111.323 
    52    store_cp : 
    53        cp_files : COMPLETED at try #1 | time : 0.052 
    54    work_cp : 
    55        cp_files : COMPLETED at try #1 | time : 72.46 
    56  
    57 ################## 
    58 #####  BILAN ##### 
    59 ################## 
    60 nb of Lists packed with success : 13 / 20 
    61 nb of fails : 7 
    62 }}} 
    63  
    64   * timing global depuis le lancement du pack 
    65   * traitement propre du cas "pas de répertoire Restart" ou "pas de fichiers Restart"  
    66   * possibilité d'avoir des données d'entrée sur un login et des données résultats sur un autre login (avec droits d'écriture) 
    67   * exemple d'utilisation 
    68  
    69  
    70 '''En cours :''' 
    71   * soumission du traitement (concaténation, tar ou cp) des listes : deux possibilités. 
    72    * version "ancienne" séquentielle qui est sous svn. Cette version ne tourne pas en batch sur curie (pb compatibilité bash-batch curie). 
    73    * version "nouvelle" séquentielle ou parallèle. Cette version tourne en batch sur curie. A finaliser (option au lancement du choix seq ou para + nb de procs) + commit + tests. 
    74  
    75 '''A faire :''' 
    76   * traitement du cas particulier "pas de répertoire Debug" (voir si c'est nécessaire) 
    77   * option d'activation (ou désactivation) des check (-md5_sum ou -W) à ajouter. 
    78   * création d'un script de check global des données avant-après : 1ère méthode envisagée : le double check. 
    79   * tests "grandeur nature"  
    80   * extrapolation et estimation du temps pour les données globales 
    81   * documentation 
    82   * mise en forme (accès web ?) des informations sur l'état d'avancement du traitement des données (voir avec Patrick) 
    83   * portage IDRIS 
     24 * Prise en main de l’outil et des données sur le calculateur titane 
     25 * Portage de l’outil sur Curie - passage en configuration réaliste 
     26 * Validation/amélioration/tests de la robustesse  
     27  * Gestion des pannes, reprises, gestion des erreurs 
     28  * Commande d’information sur l’avancement (création de listes + traitement des données) 
     29  * Outil de check données «avant» - «après» (fichiers netcdf) 
     30 * Tests/amélioration des performances 
     31  * Implémentation d’un parallélisme : soumission de plusieurs tâches en parallèles (utilisation d’un outil TGCC) 
     32 * Portage IDRIS 
     33 * Documentation : http://forge.ipsl.jussieu.fr/igcmg/attachment/wiki/BasculeCCRTTGCC/Prestation_CCRT_TGCC/Doc_outil_pack_IPSL_v2.pdf 
     34 * Aide au démarrage de la migration (lien entre le TGCC et l’IPSL) 
    8435 
    8536== Documentation == 
    8637 
    87 Une documentation de l'outil de traitement des données développé par l'IPSL est disponible là : [attachment:"Doc_outil_pack.pdf"] 
     38Une documentation de l'outil de traitement des données développé par l'IPSL est disponible là : [attachment:"Doc_outil_pack_IPSL_v2.pdf"] 
    8839 
    8940