Context Navigation

← Previous Change
Next Change →

scripts

Timestamp:

04/10/12 14:20:30 (12 years ago)

Author:

pinsard

Message:

progress on Excel reading

Location:

trunk/aeres/scripts

Files:

: 2 edited

aeresrh.py (modified) (7 diffs)
build_firstname_id.py (modified) (4 diffs)

Legend:

: Unmodified
: Added
: Removed

trunk/aeres/scripts/aeresrh.py

-                      r182
+                      r183
 $URL$
+- fplod 20120410
+  * real titles
+  * start dictionnary
 - fplod 20120409
 …
     # detect title row
     for rownum in range(sh.nrows):
         if sh.row_values(rownum)[0] == 't':
+        if sh.row_values(rownum)[0] == "Type d'emploi (EC, Ch, AP)":
             titlerow = rownum
     if is_verbose == True:
 …
     # detect surname column
     for colnum in range(sh.ncols):
         if sh.col_values(colnum)[titlerow] == 'nom':
+        if sh.col_values(colnum)[titlerow] == 'Nom':
             colsurname = colnum
     if is_verbose == True:
 …
     # detect firstname column
     for colnum in range(sh.ncols):
         if sh.col_values(colnum)[titlerow] == 'prenom':
+        if sh.col_values(colnum)[titlerow] == u'Prénom':
             colfirstname = colnum
     if is_verbose == True:
 …
     # detect arrival column
     for colnum in range(sh.ncols):
         if sh.col_values(colnum)[titlerow] == u'arrivée':
+        if sh.col_values(colnum)[titlerow] ==  u"Date d'arriv\xe9e dans l'unit\xe9\n(9)":
             colarrival = colnum
     if is_verbose == True:
 …
     # detect publi column
     for colnum in range(sh.ncols):
         if sh.col_values(colnum)[titlerow] == u'publi':
+        if sh.col_values(colnum)[titlerow] ==  u'N\xb0 des 5 productions les plus significatives dans la p\xe9riode \xe9valu\xe9e\n(11)':
             colpubli = colnum
     if is_verbose == True:
 …
     firstname_id = build_firstname_id(firstname)
+    #
+    author_id = []
+    for index in range(len(surname_id)):
+        author_id.append('{surname_id}_{firstname_id}'.format(surname_id=surname_id[index], firstname_id=firstname_id[index]))
+    print('author id 0 %s ' % author_id[0])
     # populate dictionary
+    #++people = {}
+    #++for index, onesurname in enumarate(surname):
+    #++   print (' surname %s' % (surname))
+    #++   people[n] = surname[index]
+    find_in_dict(people, 'surname', 'Pinsard')
+    people = {}
+    keys = ('surname_id', 'firstname_id')
+    people = dict.fromkeys(author_id,keys)
+    people['COPPIN_elisabeth']
+    for index, oneauthor_id in enumerate(author_id):
+       people[oneauthor_id]
+       #people[oneauthor_id]['surname_id'] = surname_id[index]
+       #people[oneauthor_id]['firstname_id'] = firsname_id[index]
+    #   # people = {'pk1':{'firstname':'Brian', 'age':42}, 'pk2':{'firstname':'Alex', 'age':50}}
+    people['PINSARD_Francoise']
+    find_in_dict(people, 'surname', 'PINSARD')
 # Run main, if called from the command line

trunk/aeres/scripts/build_firstname_id.py

-                      r182
+                      r183
 :ref:`firstname_id.xsl`
+:mod:`unidecode`
 EXAMPLES
 …
 import string
 import sys
+import re
+from unidecode import unidecode
 def build_firstname_id(firstname):
 …
     >>> firstname = []
     []
+    >>> firstname.append(' Ginette')
+    [' Ginette']
+    >>> firstname.append('Gin ette ')
+    [' Ginette', 'Gin  ette']
+    >>> firstname.append("G\'in ette ")
+    [' Ginette', 'Gin ette', "G\'in ette"]
+    >>> firstname.append(u' Ginette')
+    >>> firstname
+    [u' Ginette']
+    >>> firstname.append(u'Gin ette ')
+    >>> firstname
+    [u' Ginette', u'Gin  ette ']
+    >>> firstname.append(u"G\'in ette ")
+    >>> firstname
+    [u' Ginette', u'Gin ette ', u"G\'in ette "]
+    >>> firstname.append(u"Gïnette")
+    >>> firstname
+    [u' Ginette', u'Gin ette ', u"G'in ette ", u'G\xefnette']
     >>> firstname_id = build_firstname_id(firstname)
+    ['ginette','ginette','ginette']
+    >>> #firstname_id
+    ['ginette', 'ginette', 'ginette', 'ginette']
     """
 …
         sys.exit(-1)
+    # convert to str
+    #++firstname_str = [str(item) for item in firstname]
+    #++firstname_str = [item.encode('iso-8859-1','replace') for item in firstname]
+    firstname_str = [item.encode('iso-8859-1','xmlcharrefreplace') for item in firstname]
+    firstname_nondiacritics = []
     for item in firstname:
+        print ('iii : item type %s : %s ' % (item, type(item)))
+        #print ('iii : item row  %s ' % (item))
+        item_nondiacritics = unidecode(item)
+        #print ('iii : item non diacritics  %s ' % (item_nondiacritics))
+        firstname_nondiacritics.append(item_nondiacritics)
+    # remove white space before and after
+    firstname_id = map(str.strip,firstname_str)
+    #print ('1 sans blan debut fin %s' % firstname_id)
+    #
+    #for item in firstname_nondiacritics:
+    #    print ('iii : item type %s : %s ' % (item, type(item)))
+    sl = firstname_nondiacritics
+    # remove white space
+    firstname_noblanks =[]
+    for item in sl:
+        #print ('iii : item avant sup blancs %s ' % (item))
+        item_noblanks = re.sub(u' ',u'',item)
+        #print ('iii : item apres sup blancs %s ' % (item_noblanks))
+        firstname_noblanks.append(item_noblanks)
+    sl = firstname_noblanks
     # lower
+    firstname_id = map(str.lower,firstname_id)
+    #print ('2 upper %s' % firstname_id)
+    #
+    # remove white space inside
+    firstname_id_no_spaces = [x.replace(' ', '') for x in firstname_id]
+    #print ('3 sans blanc milieu %s' % firstname_id_no_spaces)
+    firstname_id = firstname_id_no_spaces
+    firstname_lower = []
+    for item in sl:
+        #print ('iii : item avant lower %s ' % (item))
+        item_lower = item.lower()
+        #print ('iii : item apres lower %s ' % (item_lower))
+        firstname_lower.append(item_lower)
+    sl = firstname_lower
+    firstname_id = sl
+    #
     # remove punctuation

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 183 for trunk/aeres/scripts

Legend:

trunk/aeres/scripts/aeresrh.py

trunk/aeres/scripts/build_firstname_id.py

Download in other formats: