Pavese in
parole



Lemmatizzazione

 

La lemmatizzazione è un processo complesso, che comporta considerazioni di tipo morfologico e sintattico, finezza ermeneutica, conoscenza profonda dell’opera da lemmatizzare. Il processo messo a punto dall’equipe UniCT ha origine dal metodo di elaborazione lessicografica dei testi letterari sviluppato da Savoca (Savoca 2000) e ulteriormente implementato nel laboratorio del CINUM per l’impresa di www.pirandellonazionale.it. Il protocollo può essere suddiviso in tre fasi: la prima è il controllo del testo da inserire, implicante una rigorosa attenzione filologica che ha spesso comportato importanti innovazioni sul versante dell’ecdotica (Savoca-Sichera 1997); il software procede quindi alla tokenizzazione in singole occorrenze del testo, preventivamente codificato secondo lo standard UTF-8, e quindi alla lemmatizzazione e all’attribuzione di Part Of Speech a ciascun token. Grazie all’uso di un dizionario-macchina in costante aggiornamento e a un sistema di machine learning ad apprendimento con rinforzo, l’intervento dell’operatore umano è limitato a poche correzioni, relative ad esempio al controllo del corretto riconoscimento delle forme omografe (‘che’ congiunzione – ‘che’ pronome). Il riconoscimento verrà effettuato utilizzando dizionari controllati, sistemi di analisi dei contesti su base stocastica, in linea con le metodologie di Natural Language Processing. La terza e ultima fase è la generazione della concordanza vera e propria in modalità KWIC (key-word in context), e la produzione di altri utili strumenti lessicografici di consultazione, come liste di frequenza (ordinate alfabeticamente, per numero di occorrenze, per categoria grammaticale), liste di lemmi specifici o comuni a più opere, quadri statistici (totale di lemmi e forme, frequenza assoluta e relativa delle categorie grammaticali, ecc.). Rispetto alle concordanze cartacee, la concezione nativamente digitale del progetto e le attuali tecniche di visualizzazione costituiscono un’importante innovazione in direzione del miglioramento della fruizione, dell’aumentata disponibilità all’accesso delle risorse, all’implementazione delle possibilità di interrogazione e di restituzione dei risultati.

L’obiettivo, in questa fase, è la realizzazione del vocabolario completo delle opere maggiori pavesiane: Lavorare stancaPaesi tuoiLa bella estatePrima che il gallo cantiDialoghi con LeucòLa luna e i falòVerrà la morte e avrà i tuoi occhi.