TEAMOVI
/
Parser


			
				
					
						
						
							1234567891011121314151617181920212223242526272829303132333435363738394041424344454647
							import csv
import codecs
from curses.ascii import DEL
import pandas as pd
import re
import os
import io
import tokenize

clean_data = open('OVI_lemmi_clean.csv', 'w')
csvwriter = csv.writer(clean_data)

params = ['ID', 'Lemma', 'sLemma', 'FileHTM']
csvwriter.writerow(params)

clean_file = open('/Users/leonardocanova/Library/CloudStorage/OneDrive-UniversityofPisa(1)/Documenti/Progetti università/OVI/Programmazione/slemmi_OVI.csv')
reader = csv.DictReader(clean_file)

#se la cosina sotto la metto dentro una funzione mi dà errore perché 'a' la vede come lista e non come array
'''def cleaner(a):
    if len(a)>1:    
        if re.search('/(*/)', a[1]):
            return a[0] + " " + a[1]
        else:
            return a[0]'''

for row in reader:
    line = []
    ID = row['ID']
    Lemma = row['Lemma']
    sLemma = row['sLemma']
    FileHTM = row['FileHTM']
    
    line.append(ID)
    line.append(Lemma)
    sLemma_clean = sLemma.split(' ') 
    del sLemma_clean[-1]
    if len(sLemma_clean)>1:
        if re.search("\(.\)", sLemma_clean[1]):
            line.append(sLemma_clean[0] + " " + sLemma_clean[1])
    else:
        line.append(sLemma_clean[0])
        line.append(FileHTM)

    csvwriter.writerow(line)
    #print (line)
clean_data.close()