Context Navigation

← Previous Change
Next Change →

trusting_func.sh

Timestamp:

2015-10-16T16:38:37+02:00 (9 years ago)

Author:

nicolasmartin

Message:

dev_r5092_CNRS18_TRUST Establishing common environment for installing & running trusting, consolidation of scripts & continuation of templates & help section improvments

File:

: 1 edited

branches/2015/dev_r5092_CNRS18_TRUST/NEMOGCM/TRUST/trusting_func.sh (modified) (24 diffs)

Legend:

: Unmodified
: Added
: Removed

branches/2015/dev_r5092_CNRS18_TRUST/NEMOGCM/TRUST/trusting_func.sh

-                      r5788
+                      r5799
 ## Messenger filenames
 FILE_DATE=mesg_01_date_$PATTERNAME.txt  ; FILE_TRUS_RSLT=mesg_02_result_$PATTERNAME.txt
+FILE_DATE=mesg_01_date_$PATTERNAME.txt  ; FILE_RSLT=mesg_02_result_$PATTERNAME.txt
 FILE_STAT=mesg_03_state_$PATTERNAME.txt ; FILE_NEMO=mesg_04_nemo_$PATTERNAME.txt
 FILE_XIOS=mesg_05_xios_$PATTERNAME.txt  ; FILE_CMPF=mesg_06_compiler_$PATTERNAME.txt
 …
 FILE_MEMY=mesg_11_memory_$PATTERNAME.txt; FILE_NOTE=mesg_12_comments_$PATTERNAME.txt
 ## Timestamped logfile & archive filenames
 FILE_TRUS=trusting_${DATE}_$PATTERNAME.txt; FILE_ARCH=trusting_${DATE}_$PATTERNAME.tgz
+## Trusting timestamped logfile & archive
+TRUS_FILE=trusting_${DATE}_$PATTERNAME.txt; TRUS_ARCH=trusting_${DATE}_$PATTERNAME.tgz
 …
 init_files() {
     echo 'Date'               > ${FILE_DATE}; echo 'Result'           > ${FILE_TRUS_RSLT}
+    echo 'Date'               > ${FILE_DATE}; echo 'Result'           > ${FILE_RSLT}
     echo 'State'              > ${FILE_STAT}; echo 'NEMOGCM rev.'     > ${FILE_NEMO}
     echo 'XIOS rev.'          > ${FILE_XIOS}; echo 'Fortran compiler' > ${FILE_CMPF}
 …
     ## 'Failed' status with 'Unknown error' by default
     echo $TRUS_RSLT           \
    >> ${FILE_TRUS_RSLT}
+    echo ${TRUS_RSLT}      \
+   >> ${FILE_RSLT}
     echo 'Unknown error' \
    >> ${FILE_STAT}
 …
 get_nemo_rev() {
     local dir rev_loc
     local rev=0 list=( 'ARCH CONFIG NEMO EXTERNAL/AGRIF EXTERNAL/IOIPSL EXTERNAL/fcm TOOLS/COMPILE TOOLS/REBUILD_NEMO' )
+    local rev=0
     ## Loop on essential NEMO directories
     for dir in $list ${DIR_XIOS}; do
+    for dir in ${TRUS_CKOT} ${TRUS_XIOS}; do
    ## For time being, just get revision from XIOS with no action on directory
    if [ $dir == ${DIR_XIOS} ]; then
        rev_loc=$( svn info $dir | awk '(NR == 9) {print $NF}' )
+   if [ $dir == ${TRUS_XIOS} ]; then
+       rev_loc=$( svn info $dir | awk '/Last Changed Rev/ {print $NF}' )
        echo 'XIOS '${rev_loc} \
       >> model.log
 …
    fi
    echo $dir && ${SVN_CMD} ${TRUS_WKCY}/$dir
    rev_loc=$( svn info ${TRUS_WKCY}/$dir | awk '(NR == 9) {print $NF}' )
+   echo $dir && ${TRUS_SVNA} ${TRUS_NGCM}/$dir
+   rev_loc=$( svn info ${TRUS_NGCM}/$dir | awk '/Last Changed Rev/ {print $NF}' )
    ## Keep last rev. nb
 …
 get_soft_rel() {
+    local soft soft_rel
+    ## Sourcing environment modulefile only if module function is set
+    [[ -e ${ARCH_ENV} && $( declare -F | grep ' module' ) ]] && . ${ARCH_ENV}
+    for soft in $CMPF ${STR_CDOD} ${STR_LMPI} ${STR_NCDF}; do
+    local soft_rel str
+    if [ -n "${TRUS_ENVI}" ]; then
+        ## Sourcing environment modulefile (.env) only if module function is set
+   if [[  -e ${TRUS_ENVI}.env && $( declare -F | grep ' module' ) ]]; then
+       . ${TRUS_ENVI}.env
+   else
+       [ -e ${TRUS_ENVI}.path ] && . ${TRUS_ENVI}.path || . ${TRUS_ENVI}
+   fi
+    fi
+    ## Problem with `prepend-path` of modulefile that use ':' instead of ' ' as delimiter on LDFLAGS variables
+    [ $TRUS_HPCC == 'X64_ADA' ] && WRAPPER_LDFLAGS='-L/smplocal/pub/IdrMemMPI/1.4/lib -lidrmem '${WRAPPER_LDFLAGS}
+    for str in ${TRUS_CMPF} ${TRUS_MPIR} ${TRUS_CDFR} ${TRUS_CDOR}; do
+   [ -z "$str" ] && continue
    soft_rel=''
    ## Software release: next word after "$soft" in $PATH (case-insensitive)
    soft_rel=$( echo $PATH | sed "s#.*$soft\([0-9.a-z_]*\).*#\1#i" )
+   soft_rel=$( echo $PATH | sed "s#.*$str\([0-9.a-z_]*\).*#\1#i" )
    ## option --version would work for main compilers (gfortran, intel, pgfortran, ...)
    [ $soft == $COMPILER ] && soft_rel=$( $soft --version | grep -m1 -oe '\<[0-9. ]*\>' )
+   [ $str == ${TRUS_CMPF} ] && soft_rel=$( $str --version | grep -m1 -oe '\<[0-9. ]*\>' )
    ## Cleaning characters string to display proper soft name
    soft=$( echo $soft | sed 's#\\##g; s#[/-]$##' )
    echo $soft ${soft_rel} \
+   str=$( echo $str | sed 's#\\##g; s#[/-]$##' )
+   echo $str ${soft_rel} \
        >> model.log
     done
+    sed -n 3p model.log \
+   >> ${FILE_CMPF}
     sed -n 4p model.log \
    >> ${FILE_CMPF}
+   >> ${FILE_LMPI}
     sed -n 5p model.log \
-   >> ${FILE_LMPI}
-    sed -n 6p model.log \
    >> ${FILE_NCDF}
+}
 …
     ## List & copy files in case of personal inputs
+    [ -z "${TRUS_TARF}" ] && { cmd_iol="ls ${TRUS_FORC}/*"; cmd_iof="\cp ${TRUS_FORC}/* ."; }
+    if [ -z "${TRUS_TARF}" ]; then
+     cmd_iol="ls ${TRUS_FORC}/*"                ; cmd_iof="\cp ${TRUS_FORC}/* ."
+    fi
     ${cmd_iol} > inputs_list.txt
 …
    ## Pass over useless file omission in benckmark directory
    [[ -n "$dif" && "$dif" != '0' ]] && ( mesg='Different'; echo $dif; files_list+=$file' ' )
+   [[ -n "$dif" && "$dif" != '0' ]] && { mesg='Different'; echo $dif; files_list+=$file' '; }
     done
 …
     ## Append a log file while pending
     while [[ $( eval ${JOB_STAT} ) && ${time_elapsed} -lt $TIMEOUT ]]; do
    printf "\n%s\n" ${outline// /#} \
+    while [[ $( eval ${TRUS_JSTA} ) && ${time_elapsed} -lt ${TRUS_TOUT} ]]; do
+   printf "\n%s\n" ${outline// /#}          \
        >> computation.log
    eval ${JOB_INFO}                \
+   [ -n "${TRUS_JINF}" ] && eval ${JOB_INFO} \
        >> computation.log
    sleep ${time_increment}
 …
     ## Kill remaining job & stop the test if it's too long
     [ ${time_elapsed} -eq $TIMEOUT ] && { eval ${JOB_DELE} &> /dev/null; get_out 6; }
+    [ ${time_elapsed} -eq ${TRUS_TOUT} ] && { eval ${JOB_DELE} &> /dev/null; get_out 6; }
+}
 …
     for file in 'ocean.output' *.stat; do
    ## Stop if no benchmark files (ocean.output, eventual stat files)
    [ ! -e ${TRUS_BHMK}/$file ] && { export TRUS_RSLT='FAILED'; get_out 7; }
+   [ ! -e ${TRUS_BHMK}/$file ] && { TRUS_RSLT='FAILED'; get_out 7; }
    diff -q $file ${TRUS_BHMK}/$file
    ## Continue even if it differs
    [ $? -ne 0 ] && { export TRUS_RSLT='FAILED'; mesg='Different'; files_list+=$file' '; }
+   [ $? -ne 0 ] && { TRUS_RSLT='FAILED'; mesg='Different'; files_list+=$file' '; }
     done
 …
     ## Stop if no benchmark files (ie time.step)
     [ ! -e ${TRUS_BHMK}/time.step ] && { export TRUS_RSLT='FAILED'; get_out 7; }
+    [ ! -e ${TRUS_BHMK}/time.step ] && { TRUS_RSLT='FAILED'; get_out 7; }
     time_step=$( cat ${TRUS_BHMK}/time.step | tr -d [:space:] )
 …
       if   [ ${nb_dom} -gt 1 ]; then
+          ${TRUS_WKCY}/TOOLS/REBUILD_NEMO/rebuild_nemo -t ${TRUS_NPRO} $file ${nb_dom} > /dev/null
+          [ $? -eq 0 ] && rm -f ${file}_[0-9]*.nc                                > /dev/null
+          ${TRUS_NGCM}/TOOLS/REBUILD_NEMO/rebuild_nemo -t ${TRUS_NPRO} $file ${nb_dom} \
+         > /dev/null
+          [ $? -eq 0 ] && rm -f ${file}_[0-9]*.nc \
+                        > /dev/null
       elif [ ${nb_dom} -eq 0 ]; then
           export TRUS_RSLT='FAILED' && get_out 8
+          TRUS_RSLT='FAILED' && get_out 8
       fi
 …
                    ## UNIX `cmp` not suitable (timestamp in .nc file)
          dif=$( $CDOD $file.nc ${TRUS_BHMK}/$file.nc 2> /dev/null          \
+         dif=$( $TRUS_CDOD $file.nc ${TRUS_BHMK}/$file.nc 2> /dev/null          \
                 | awk '/records/ {print $0}' | sed '2 s/^/,/' | tr -d '\n' )
          ## CDO can return void stdout with no difference
          if [[ -n "$dif" && $( echo $dif | awk '{print $1}' ) -ne 0 ]]; then
              export TRUS_RSLT='FAILED'
+             TRUS_RSLT='FAILED'
              files_list+=$comp' ' && let dif_sum+=$( echo $dif | awk '{print $1}' )
              echo $file.nc': '$dif
 …
           else
          export TRUS_RSLT='FAILED' && get_out 7
+         TRUS_RSLT='FAILED' && get_out 7
           fi
 …
     else
    export TRUS_RSLT='FAILED'
+   TRUS_RSLT='FAILED'
     fi
 …
 get_time() {
+    [ -z "${TRUS_JTIM}" ] && return
     ## Interest for checking unusual time computation
     local time_cpu=$( eval ${JOB_TIME} )
+    local time_cpu=$( eval ${TRUS_JTIM} )
     printf "Elapsed time: "
 …
 get_memy() {
+    [[ -z "${TRUS_JPME}" && -z "${TRUS_JVME}" ]] && return
     ## Interest for checking unusual memory usage
     local memory_pmax=$( eval ${JOB_PMEM} ) memory_vmax=$( eval ${JOB_VMEM} )
+    local memory_pmax=$( eval ${TRUS_JPME} ) memory_vmax=$( eval ${TRUS_JVME} )
     printf "Memory max usage (physical/virtual): "
 …
     ## Construct txt file with all messenger files
     paste -d ';' mesg_*.txt | tee ${FILE_TRUS}
+    paste -d ';' mesg_*.txt | tee ${TRUS_FILE}
+}
 …
     ## Production mode (-p|--prod)
     if [ $PROD -eq 1 ]; then
+    if [ ${TRUS_PROD} -eq 1 ]; then
    ## Create or append trusting logfile
    if [ -f ${TRUS_BHMK}/trusting_$PATTERNAME.txt ]; then cmd='tail -1'; else cmd='cat'; fi
    $cmd ${FILE_TRUS}                           \
+   $cmd ${TRUS_FILE}                           \
        >> ${TRUS_BHMK}/trusting_$PATTERNAME.txt
         ## Send mail only when FAILED
    if [[ ! -z "$TRUS_MAIL" && $TRUS_RSLT == 'FAILED' ]]; then
+   if [[ ! -z "${TRUS_MAIL}" && ${TRUS_RSLT} == 'FAILED' ]]; then
        ## Content
 …
 The trusting sequence has not completed successfully on new configuration ${TRUS_TEST} based on ${TRUS_REFE}.
+The trusting sequence has not completed successfully on new configuration ${TRUS_CONF} based on ${TRUS_REFE}.
 Here is the model summary:
 …
 For more details, look into the testing directory at:
 ${TEST_DIR}
+${TRUS_TEST}
 An archive has been created to share the questionable configuration for further studies:
 ${TRUS_BHMK}/${FILE_ARCH}
+${TRUS_BHMK}/${TRUS_ARCH}
 END_MAIL
        ## Send with detailed subject
        mail -s "[NEMO Trusting][$rev][${TRUS_WKCY}][${TRUS_REFE}] $TRUS_RSLT $ERR" $TRUS_MAIL \
+       mail -s "[NEMO Trusting][$rev][${TRUS_BRAN}][${TRUS_REFE}] ${TRUS_RSLT} ${TRUS_RORR}" ${TRUS_MAIL} \
       <  trusting.mail
    fi
 …
     local time_step=0
     ERR=$1
+    TRUS_RORR=$1
     printf "\n\nEnd of test\n"
     ## In case of compilation error
     cd ${TEST_DIR}
     if [ $TRUS_RSLT == 'FAILED' ]; then
+    cd ${TRUS_TEST}
+    if [ ${TRUS_RSLT} == 'FAILED' ]; then
    echo 'Failure'
         ## Error identification
    case $ERR in
+   case ${TRUS_RORR} in
             ## Compilation
        '1') ERR='XIOS compilation failed' ;; '2') ERR='NEMO compilation failed';;
+       '1') TRUS_RORR='XIOS compilation failed' ;; '2') TRUS_RORR='NEMO compilation failed';;
        ## Submission
        '3') ERR='Missing input files'     ;; '4') ERR='Job submission error'   ;;
+       '3') TRUS_RORR='Missing input files'     ;; '4') TRUS_RORR='Job submission error'   ;;
        ## Computation
        '5') ERR='Crashed at time step'    ;; '6') ERR='Exceeded time limit'    ;;
+       '5') TRUS_RORR='Crashed at time step'    ;; '6') TRUS_RORR='Exceeded time limit'    ;;
        ## Results
+       '7') ERR='Missing previous outputs';; '8') ERR='New outputs differ'     ;;
+       '7') TRUS_RORR='Missing previous outputs';; '8') TRUS_RORR='New outputs differ'     ;;
+       ## Other
+       '*') TRUS_RORR='Unknown error'           ;;
    esac
     else
    echo 'Success' && ERR='Code is reliable'
+   echo 'Success' && TRUS_RORR='Code is reliable'
     fi
     ## Eventual comments from ocean.output
     if [ "$ERR" == 'Crashed at time step' ]; then
+    if [ "${TRUS_RORR}" == 'Crashed at time step' ]; then
    comments 'E R R O R'
    [ -e time.step ] && time_step=$( grep -o [0-9]* time.step )
    ERR+=' '$time_step
+   TRUS_RORR+=' '$time_step
     else
    comments 'W A R N I N G'
    [ "$ERR" == 'Exceeded time limit' ] && ERR+=' '$(( ${TIMEOUTT}/3600 ))'h'
+   [ "${TRUS_RORR}" == 'Exceeded time limit' ] && TRUS_RORR+=' '$(( ${TRUS_TOUT}/3600 ))'h'
     fi
     ## Last messenger files
     export ERR
     sed -i "2 s/.*/$TRUS_RSLT/" ${FILE_TRUS_RSLT}; sed -i "2 s/.*/$ERR/" ${FILE_STAT}
+    #export TRUS_RORR
+    sed -i "2 s/.*/$TRUS_RSLT/" ${FILE_RSLT}; sed -i "2 s/.*/$TRUS_RORR/" ${FILE_STAT}
     ## Save tested configuration if trusting failed in production mode (-p|--prod)
     if [[ $TRUS_RSLT == 'FAILED' && $PROD -eq 1 ]]; then
    echo 'Creating archive '${FILE_ARCH}' under '${TRUS_BHMK}
    tar -czf ${TRUS_BHMK}/${FILE_ARCH}              *                    \
        -C ${TRUS_WKCY}/CONFIG/${TRUS_TEST}/MY_SRC .                    \
        -C ${TRUS_WKCY}/CONFIG/${TRUS_TEST}        cpp_${TRUS_TEST}.fcm
+    if [[ ${TRUS_RSLT} == 'FAILED' && ${TRUS_PROD} -eq 1 ]]; then
+   echo 'Creating archive '${TRUS_ARCH}' under '${TRUS_BHMK}
+   tar -czf ${TRUS_BHMK}/${TRUS_ARCH}               *                    \
+       -C   ${TRUS_NGCM}/CONFIG/${TRUS_CONF}/MY_SRC .                    \
+       -C   ${TRUS_NGCM}/CONFIG/${TRUS_CONF}        cpp_${TRUS_CONF}.fcm
     fi

Note: See TracChangeset for help on using the changeset viewer.

New URL for NEMO forge! http://forge.nemo-ocean.eu

Context Navigation

Changeset 5799 for branches/2015/dev_r5092_CNRS18_TRUST/NEMOGCM/TRUST/trusting_func.sh

Legend:

branches/2015/dev_r5092_CNRS18_TRUST/NEMOGCM/TRUST/trusting_func.sh

Download in other formats: