## PARSER ONTOLOGIE

#### INTRODUZIONE
Questo notebook (testato con Python 3.12) contiene una implementazione di base del codice che ci serve.
 - Input: un file .xlsx
 - Output: un file .rdf

L'output finale è una definizione strutturata dell'ontologia descritta 'informalmente' nel file .xlsx iniziale. L'output è in formato RDF/XML invece che TTL per un discorso essenzialmente storico di implementazione. Il file .rdf può essere facilmente convertito in .ttl con strumenti esistenti, ad esempio noi lo abbiamo ottenuto usando il servizio pubblico WEBVOWL:

https://service.tib.eu/webvowl/

importando il file .rdf e riesportandolo come .ttl.

Una breve nota riguardo alla lingua: i commenti nel codice ed i nomi delle variabili sono in inglese per un discorso di (eventuale) portabilità. I commenti e le descrizioni interne ai file sono invece in italiano per praticità, dato che tutto il personale coinvolto nel lavoro è italiano.

Il primo passo è definire alcuni import e variabili globali, in particolare i folder che devono contenere input e output e il nome file per l'ontologia.

In [11]:
import csv
import json

# BASIC CONFIGURATION
DATA_FOLDER = './data/'
OUTPUT_FOLDER = './output/'
ONTO_FILENAME = 'man_draft' # No extension!

ent_filename = ONTO_FILENAME + '_entities.csv'
rel_filename = ONTO_FILENAME + '_relations.csv'

#### PARTE I: acquisizione dati
Il passo successivo è la conversione del file .xlsx in due file .csv.

Per descrivere l'ontologia in modo semplice, abbiamo adottato una descrizione 'a grafo': ci aspettiamo che il file .xlsx contenga (almeno) due fogli, uno che descrive le Entità (i nodi del grafo) ed uno le Relazioni (gli spigoli del grafo).

La descrizione è forse ingenua, ma è semplice da capire anche per i non esperti e funzionale allo scopo.

Le schede con Entità e Relazioni vengono ricercate in base al nome, che è configurabile. Tutto il loro contenuto viene esportato in file .csv senza nessuna elaborazione. La lettura usa la libreria **openpyxl**, che è l'unico pacchetto non-standard usando nel Notebook.

In [12]:
# PART I: parse xlsx to (multiple) csv

# CONFIGURATION
XLSX_FILENAME = ONTO_FILENAME + '.xlsx'
ENTITIES_SHEETNAME = 'Entità'
RELATIONS_SHEETNAME = 'Relazioni'

# Import xlsx through openpyxl
import openpyxl as op

input_data = op.load_workbook(DATA_FOLDER + XLSX_FILENAME)

entities_sheet = input_data[ENTITIES_SHEETNAME]
relations_sheet = input_data[RELATIONS_SHEETNAME]

# Export sheet data to csv
with open(DATA_FOLDER + ent_filename, 'w', encoding='utf-8') as out_file:
 writer = csv.writer(out_file)
 writer.writerows(entities_sheet.values)

with open(DATA_FOLDER + rel_filename, 'w', encoding='utf-8') as out_file:
 writer = csv.writer(out_file)
 writer.writerows(relations_sheet.values)

#### PARTE II: pre-processing dei dati
Qui i dati dei CSV vengono letti e raccolti in una struttura leggermente più elaborata (più facile da riprocessare) che poi, per maggior visibilità, viene salvata in formato JSON. Il JSON in ogni caso è un file intermedio di lavoro che non ha nessuna importanza fondamentale, e può essere via via modificato in base alle esigenze.

Non tutti i dati del CSV vengono letti, ma solo quelli corrispondenti a specifiche colonne, che possono essere definite all'inizio del parsing. I CSV possono avere o meno una intestazione (il booleano HEADER_ROW va settato di conseguenza).

Se si preferisce, i CSV possono essere forniti direttamente dall'utente al posto del file .xlsx, e l'elaborazione può partire da qui saltando la Parte I.

In [13]:
# PART II: collect CSV data into a 'pre-ontology' structure

# Read csv files produced by xlsx processing back in (OPTIONALLY: provide the csv files directly and start directly from here)
# From here on, the main objects will be the 'entities' and 'relations' lists of dicts which arise from CSV re-reading.
# To facilitate further processing, they will be arranged in a nested structure, which will be exported as a JSON file

HEADER_ROW = True

# Not difficult to add more keys (column names)
ENTITIES_COLUMN_LABEL = 'ENTITÀ'
ATTRIBUTES_COLUMN_LABEL = 'ATTRIBUTO (LITERAL)'
SAMEAS_COLUMN_LABEL = 'SAME AS'
#
RELATION_FIRST_COLUMN_LABEL = 'ENTITÀ 1'
RELATION_SECOND_COLUMN_LABEL = 'ENTITÀ 2'
RELATION_NAME_COLUMN_LABEL = 'NOME RELAZIONE'
INVERSE_RELATION_COLUMN_LABEL = 'NOME RELAZIONE INVERSA'
#


with open(DATA_FOLDER + ent_filename, 'r', encoding='utf-8') as in_file:
 if HEADER_ROW:
 reader = csv.DictReader(in_file)
 else:
 reader = csv.DictReader(in_file, fieldnames=[ENTITIES_COLUMN_LABEL, ATTRIBUTES_COLUMN_LABEL, SAMEAS_COLUMN_LABEL])
 entities = [row for row in reader]

with open(DATA_FOLDER + rel_filename, 'r', encoding='utf-8') as in_file:
 if HEADER_ROW:
 reader = csv.DictReader(in_file)
 else:
 reader = csv.DictReader(in_file, fieldnames=[RELATION_FIRST_COLUMN_LABEL, RELATION_SECOND_COLUMN_LABEL, RELATION_NAME_COLUMN_LABEL, INVERSE_RELATION_COLUMN_LABEL])
 relations = [row for row in reader]


# Main function for this Part
def dict_lists_to_json(entities_local, relations_local):

 entity = {}

 current_entity = None
 for row in entities_local:
 entity_name = row.get(ENTITIES_COLUMN_LABEL)
 attribute_name = row.get(ATTRIBUTES_COLUMN_LABEL)
 same_as_row = row.get(SAMEAS_COLUMN_LABEL)
 same_as_list = same_as_row.split(',') if same_as_row else []

 if entity_name:
 current_entity = entity_name
 entity[current_entity] = {}

 if current_entity and attribute_name:
 if not entity[current_entity].get('Attributi'):
 entity[current_entity]['Attributi'] = []
 entity[current_entity]['Attributi'].append(attribute_name)

 if current_entity and same_as_list:
 entity[current_entity]['Sinonimi'] = [s.strip() for s in same_as_list]

 # Add subclass information
 for row in relations_local:
 entity1 = row.get(RELATION_FIRST_COLUMN_LABEL)
 entity2 = row.get(RELATION_SECOND_COLUMN_LABEL)
 label = row.get(RELATION_NAME_COLUMN_LABEL)

 if label == "is_subclass_of":
 if entity1 in entity:
 entity[entity1]["Sottoclasse di"] = entity2

 # Construct relations
 entity_relations = []
 for row in relations_local:
 if row[RELATION_NAME_COLUMN_LABEL] != "is_subclass_of":
 relation = {
 "Entità 1": row[RELATION_FIRST_COLUMN_LABEL],
 "Entità 2": row[RELATION_SECOND_COLUMN_LABEL],
 "Etichetta": row[RELATION_NAME_COLUMN_LABEL],
 "Inversa": row[INVERSE_RELATION_COLUMN_LABEL]
 }
 entity_relations.append(relation)

 # Create final object structure
 data = {
 "Entità": entity,
 "Relazioni": entity_relations
 }

 return data

In [14]:
# Do it!
json_data = dict_lists_to_json(entities, relations)

# Export data
with open(OUTPUT_FOLDER + ONTO_FILENAME + '.json', 'w') as out_json:
 json.dump(json_data, out_json, indent=2, ensure_ascii=False)

#### PARTE III: produzione del file RDF
L'ultima parte dell'elaborazione usa l'oggetto strutturato prodotto dalla Parte II per creare un file RDF/XML valido (validato usando un'istanza pubblica di WEBVOWL) che descrive formalmente l'ontologia in corso di validazione.

L'approccio è molto basico/ingenuo: si utilizza un template pre-generato (con l'aiuto del software Protegé) e si sostituiscono specifiche stringhe con le informazione ricavate dal JSON. L'idea era di produrre un esempio minimale funzionante, più che qualcosa di definitivo o particolarmente elaborato.

In [15]:
# PART III: from the structured entity/relation data obtained from part II, generate a RDF file describing the ontology

# Re-read the data and do a consistency check
entity_set = set(json_data['Entità'].keys())

entity_relations_set = {ent for rel in json_data['Relazioni'] for ent in [rel['Entità 1'], rel['Entità 2']]}

# The check: ideally, all entities mentioned in the 'relations' object should be present in the 'entities' object, and the output of the following block should be null
if not entity_relations_set.issubset(entity_set):
 print(entity_relations_set.difference(entity_set))

# However, we actually used an extra placeholder in 'relations', '#any', which stands for any entity (any class); the expected output is thus a list containing only '#any'

{'#any'}


In [16]:
# RDF Templates
RDF_MAIN_TEMPLATE = 'template.rdf'
with open(DATA_FOLDER + RDF_MAIN_TEMPLATE, 'r') as in_file:
 RAW_RDF = in_file.read()

# RDF snippets; info will replace placeholder tags (in uppercase between '#')
ENTITY_TEMPLATE = '''
 

 
 #LABEL#
 #PARENT#
 
'''
SUBCLASS_STRING = " #PARENT#\n"

OBJECT_PROPERTY_TEMPLATE = '''
 

 
 #LABEL#
 
 
 
'''

OBJECT_PROPERTY_INVERSE_TEMPLATE = '''
 

 
 #LABEL#
 
 
 
 
'''

DATATYPE_PROPERTY_TEMPLATE = '''
 

 
 #LABEL#
 
 
'''

In [17]:
# Utility
def normalize_label(label):
 return label.lower().replace(' ', '_').replace('à', 'a').replace('è', 'e').replace('é', 'e').replace('ì', 'i').replace('ò', 'o').replace('ù', 'u')


# Main function for this part
def create_rdf(data):
 entities_rdf_list = []
 datatype_properties_rdf_list = []
 for label, ent in data['Entità'].items():
 
 entity_name = normalize_label(label)
 entity_rdf = ENTITY_TEMPLATE.replace('#LABEL#', label).replace('#NAME#', entity_name)

 # Subclasses
 if 'Sottoclasse di' in ent.keys():
 parent = ent['Sottoclasse di']
 data['Relazioni'].append({"Entità 1": label,
 "Entità 2": parent,
 "Etichetta": "is_subclass_of", "Inversa": "is_superclass_of"})
 entity_rdf = entity_rdf.replace('#PARENT#', normalize_label(parent))
 else:
 entity_rdf = entity_rdf.replace(SUBCLASS_STRING, '')

 entities_rdf_list.append(entity_rdf)
 
 if not ent.get('Attributi'):
 continue
 for datatype_label in ent['Attributi']:
 datatype_name = normalize_label(datatype_label)
 datatype_properties_rdf_list.append(
 DATATYPE_PROPERTY_TEMPLATE.replace('#LABEL#', datatype_label).replace(
 '#NAME#', datatype_name
 ).replace('#DOMAIN#', entity_name)
 )

 relations_rdf_list = []
 for rel in data['Relazioni']:
 label = rel['Etichetta']
 inverse_label = rel['Inversa']
 domain = normalize_label(rel['Entità 1'])
 range1 = normalize_label(rel['Entità 2'])
 name = domain + '_' + normalize_label(label) + '_' + range1
 inverse_name = range1 + '_' + normalize_label(inverse_label) + '_' + domain
 #
 relation_rdf = OBJECT_PROPERTY_TEMPLATE.replace('#NAME#', name).replace('#LABEL#', label).replace('#DOMAIN#', domain).replace('#RANGE#', range1)
 #
 relation_inverse_rdf = OBJECT_PROPERTY_INVERSE_TEMPLATE.replace('#NAME#', inverse_name).replace('#LABEL#', inverse_label).replace('#DOMAIN#', range1).replace('#RANGE#', domain).replace('#INV#', name)
 #
 relation_full_rdf = relation_rdf + '\n\n\n' + relation_inverse_rdf
 relations_rdf_list.append(relation_full_rdf)
 
 to_out = RAW_RDF.replace(ENTITY_TEMPLATE, '\n\n\n'.join(entities_rdf_list)).replace(DATATYPE_PROPERTY_TEMPLATE, '\n\n\n'.join(datatype_properties_rdf_list)
 ).replace(OBJECT_PROPERTY_INVERSE_TEMPLATE, '\n\n\n'.join(relations_rdf_list))

 return to_out


In [18]:
# Do it!
rdf_data = create_rdf(json_data)

# Export
with open(OUTPUT_FOLDER + ONTO_FILENAME + '.rdf', 'w') as out_file:
 out_file.write(rdf_data)

#### PARTE IV: il file turtle
Non abbiamo scritto codice per creare il .ttl -- questo resta tra i desiderata -- ma un file turtle può essere abbastanza facilmente generato usando software di terze parti, ad esempio l'istanza pubblica di WEBVOWL presente all'indirizzo

https://service.tib.eu/webvowl/ ,

il che serve anche per validare l'output prodotto.