Con la distanza intertestuale si misura la “diversità” che intercorre tra due o più testi. Per farlo si applicano dei metodi statistici e matematici che sono basati sul conteggio delle forme grafiche. Lo scopo è prima di tutto classificatorio: raggruppare i testi simili in base all’argomento in modo che sia minima la differenza tra i testi all’interno del gruppo e massima la differenza dei gruppi tra di loro. Tra le tecniche utilizzate una delle più note nell’ambito della statistica testuale è la Distanza di Labbé [1] implementata nel sofware Iramuteq (ver. 0.8 alfa 7) di Pierre Ratinau [2].
L’analisi è stata applicata a un corpus di quindici romanzi di autori della stessa epoca di Italo Svevo: Gabriele D’Annunzio (L’innocente, Il fuoco, Notturno); Grazia Deledda (La via del male, Canne al vento, La madre); Luigi Pirandello (Il turno, Il fu Mattia Pascal, Uno, nessuno, centomila); Matilde Serao (Le virtù di Checchina, Il ventre di Napoli, Il paese di cuccagna). A questi si aggiunge Il vegliardo elaborato da ChatGPT, per un totale di 16 testi e 1.098.161 occorrenze.
La distanza di Labbé viene calcolata sull’intera matrice lessicale {unità lessicali x testi} con la possibilità di selezionare una soglia di frequenza delle parole (in questo caso la soglia 10). I risultati sono espressi mediante grafici e una tabella di sintesi della matrice delle distanze.
L’analisi è stata applicata a un corpus di quindici romanzi di autori della stessa epoca di Italo Svevo: Gabriele D’Annunzio (L’innocente, Il fuoco, Notturno); Grazia Deledda (La via del male, Canne al vento, La madre); Luigi Pirandello (Il turno, Il fu Mattia Pascal, Uno, nessuno, centomila); Matilde Serao (Le virtù di Checchina, Il ventre di Napoli, Il paese di cuccagna). A questi si aggiunge Il vegliardo elaborato da ChatGPT, per un totale di 16 testi e 1.098.161 occorrenze.
La distanza di Labbé viene calcolata sull’intera matrice lessicale {unità lessicali x testi} con la possibilità di selezionare una soglia di frequenza delle parole (in questo caso la soglia 10). I risultati sono espressi mediante grafici e una tabella di sintesi della matrice delle distanze.
Il grafico più esemplificativo è quello dell’albero che emerge da una classificazione gerarchica con metodo di Ward (cliccare sull’immagine per ingrandire).
Come si può osservare i testi si dividono un due grandi raggruppamenti a loro volta suddivisi in gruppi di tre. Nell’area superiore si collocano i romanzi di Matilde Serao, Grazie Deledda e Gabriele D’Annunzio; nell’area inferiore troviamo, ben distinti tra loro, i romanzi di Italo Svevo e Luigi Pirandello.
Il testo de Il vegliardo elaborato dalla IA si colloca sul ramo di Svevo ma è anche contiguo a Pirandello. Non sorprende che la distanza intertestuale minore sia tra La Coscienza di Zeno e Il vegliardo, visto che i due romanzi, nelle intenzioni di Italo Svevo, avrebbero dovuto essere pubblicati in sequenza. Ma il risultato è comunque significativo perché questa "versione" de Il vegliardo è stata scritta da ChatGPT cui è stato chiesto di imitare lo stile di Italo Svevo.
Tab. 1 - Distanze intertestuali minime tra Il Vegliardo e gli altri romanzi.
Le distanze con gli altri romanzi del corpus sono ancora maggiori e vanno da un minimo di 0,410 a un massimo di 0,468.
La vicinanza tra Il fu Mattia Pascal e Il vegliardo è più che giustificabile, data l'affinità del tema della crisi dell'identità borghese tra i due romanzi. Sia Mattia Pascal che Zeno Cosini si trovano a fare i conti con la frammentazione dell'identità: il primo come conseguenza della sua presunta morte e l'acquisizione della consapevolezza di non esistere al di fuori delle convenzioni sociali; il secondo per effetto della frammentazione della coscienza e della sua incapacità di trovare una soluzione alle sue debolezze.
Lo stesso si può dire di Vitangelo Moscarda che scopre che l'immagine che gli altri hanno di lui è diversa da quella che ha di sé risolvendosi in una identità inafferrabile. La dove Pirandello fa leva sull'umorismo per indagare la realtà, Svevo ricorre all'auto-ironia e al sarcasmo.
Una prova ulteriore rafforza questa valutazione.
Il corpus (16 testi) è stato sottoposto a una procedura di doppia classificazione gerarchica discendente, con il metodo di Reinert, [3] su una matrice della forma {enunciati x unità lessicali}, con 27.503 enunciati e 1.098.161 unità lessicali.
Nell’analisi sono state considerate i 5.000 lemmi con occorrenza >12 (403.200 occorrenze). Si individuano 5 classi, con una copertura del 95,32% degli enunciati.
Nell’analisi sono state considerate i 5.000 lemmi con occorrenza >12 (403.200 occorrenze). Si individuano 5 classi, con una copertura del 95,32% degli enunciati.
Nel grafico 1 sono rappresentate le unità lessicali sul primo piano fattoriale che offre una copertura del 60% della variabilità della matrice (cliccare sull’immagine per ingrandire):
Fig. 1 - Analisi fattoriale delle corrispondenze del corpus Romanzi + Il Vegliardo
sulle unità lessicali (lemmi) per classi: piano fattoriale degli assi 1 e 2.
Proiettando sul piano fattoriale i titoli dei romanzi otteniamola seguente rappresentazione delle classi in cui i testi sono descritti dalle variabili Titolo e Autore (cliccare sull’immagine per ingrandire):
Fig. 2 - Analisi fattoriale delle corrispondenze del corpus Romanzi + Il Vegliardo:
proiezione delle variabili Titolo e Autore per classi: piano fattoriale degli assi 1 e 2.
Riferimenti.
[1] D. Labbé & D. Monière, La connexion intertextuelle. Application au discours gouvernemental québécois. In M. Rajman & J.-C. Chappelier (Eds.), Actes des 5èmes Journées Internationales d’Analyse statistique des Données Textuelles, Lausanne 2000: EPLF, 85-94; C. Labbé & D. Labbé, "La distance intertextuelle". Corpus, 2003 (2) : 95-117.
[2] P. Ratinau, Iramuteq, Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, LERASS (Laboratoire d'études et de recherches appliquées au sciences sociales), 2020-2025. http://www.iramuteq.org/
[3] M. Reinert, M. (1986). Un logiciel d'analyse lexicale: Alceste, in Les Cahiers de l'analyse des données, XI, 4, 1986, pp. 471-84; M. Reinert, “Alceste, une méthodologie d’analyse des Données textuelles et une application: Aurélia de Gérard de Nerval", BMS: Bulletin of Sociological Methodology / Bulletin de Méthodologie Sociologique, No. 26 (March, 1990), pp. 24-54; J.P. Benzécri et al., L'analyse des données. 2. L'analyse des correspondances, Dunod, Paris, 1973; S. Bolasco, L'analisi automatica dei testi. Fare ricerca con il text mining, Carocci editore, Roma, 2013, in part. pp. 201-204.