Littérature et nouvelle ère : vers une approche quantitative de la théorie littéraire

Introduction

Depuis qu’il nous est possible de numériser les textes, le champ de la théorie littéraire a vu émerger un nouveau projet considérable : une théorie littéraire fondée sur une approche quantitative. Cela bouleverse complètement les méthodes, mais surtout, cela ouvre de nouveaux horizons jusqu’alors impensables. Jusqu’ici, les théoriciens ne pouvaient compter que sur eux-mêmes et leur amour de la lecture pour multiplier les références et élaborer des corpus. Mais maintenant, nous n’avons même plus besoin de lire les livres pour en parler : les ordinateurs le font à notre place. Le plus remarquable, c’est sans doute que, ce que la machine a à en dire, est certainement plus juste, ou du moins fondé. Dans un domaine où préjugés, passions et affects personnels nous mènent fréquemment à des impasses, l’apparition de l’ordinateur est un véritable deus ex machina.

Le but de cet article n’est pas d’explorer une à une les innovations permises par les sciences computationnelles dans le domaine de la théorie littéraire. Plutôt, nous allons nous pencher sur la question de la refonte potentielle d’une science pluriséculaire au prisme de nouveaux moyens d’analyse. Dans la première partie, nous verrons que l’idée d’une théorie littéraire quantitative naît à un moment propice où la numérisation des livres se généralise. Nous expliquerons ensuite en quoi l’introduction de ces méthodes impliquerait, sinon une révolution, du moins une révision des théories classiques. Finalement, nous aborderons la thèse selon laquelle une approche quantitative permettrait un usage de la littérature à des fins linguistiques et historiques. 

Digitalisation

On a longtemps rêvé de rassembler en un seul lieu toutes les connaissances jamais produites par l’humanité. Il suffit de penser à la bibliothèque d’Alexandrie pour reconnaître que cette ambition est loin d’être nouvelle. Cependant, l’humain dispose aujourd’hui de moyens dont auraient seulement pu rêver les savants de l’Antiquité, et ce, grâce à Internet.

L’avantage principal d’Internet sur la bibliothèque d’Alexandrie, en plus d’un risque d’incendie moindre, c’est l’incommensurabilité de l’espace qu’il offre1 Une bibliothèque entière peut tenir sur un disque dur. Adam Hammond, auteur de Literature in the Digital Age, note par exemple que sa copie de Great Expectations de Dickens compte 476 pages. Sur le disque dur de son ordinateur, en revanche, le même texte occupe plus de mille fois moins de place que son adaptation cinématographique longue de 1h46. Cela s’explique par le simple fait qu’il est extrêmement aisé de numériser un texte. Puisqu’il se compose généralement uniquement de lettre ou de caractères typographiques, il suffit de traduire le texte selon un code binaire. Le premier de ces codes à avoir été utilisé est l’American Standard Code for Information Interchange. Comme le souligne Hammond, une fois cette opération de codage faite, il devient possible d’effectuer toutes les analyses computationnelles que l’on souhaite. Le peu de place que prennent les livres permet donc facilement d’imaginer les réunir en une base de données qui offriraient la possibilité aux utilisateurs et utilisatrices d’en disposer quand ils le souhaitent. Internet s’offre comme le lieu privilégié où réunir les connaissances accumulées par l’humanité depuis des siècles. 

Le projet de bibliothèque digitale le plus notable est certainement Google Books, d’abord connu sous le nom Google Print à son lancement en 2004 lors de la foire du livre de Francfort. Grâce à la participation de l’université du Michigan, de Stanford ou encore Harvard, Google books comptait après quatre ans d’existence déjà 7 millions de livres, indique Hammond, et dépasse les 20 millions en 2012. Cette accumulation ne va pas sans bon nombre de problèmes judiciaires2 , mais cela n’empêche pas le plus grand corpus de textes de l’histoire de l’humanité de continuer à se développer. Notons qu’un tel projet entraîne des réflexions très intéressantes sur la matérialité du médium. Mentionnons le cas de la note de bas de page, qui se caractérise précisément par sa situation en bas de l’unité « page ». Si cette unité vient à disparaître dans le processus de numérisation du texte (c’est-à-dire si l’on ne passe pas par le scan3 ) alors elle entraînera avec elle les notes qui se trouvaient en bas. Le médium n’est donc pas innocent. Au contraire, il détermine fortement la forme que prend le texte, mais également la manière dont on peut s’en servir.

En effet, si nous avons ouvert cet article par la digitalisation, c’est parce que c’est uniquement grâce à elle qu’une analyse quantitative par des méthodes computationnelles de la littérature est devenue possible. Si le projet, à l’origine, était de réunir une quantité importante de connaissance et y permettre un accès facilité, cela représente également une occasion unique pour les théoriciens de la littérature de renouveler leur domaine par des moyens inédits. Cela rend possible un nombre considérable d’observations impensables jusqu’alors. C’est ce que nous allons voir à présent. 

Les débuts de l’approche quantitative

En 1962 paru un article signé Jakobson et Lévi-Strauss intitulé « Les Chats de Charles Baudelaire », dans lequel les auteurs proposent une analyse du poème « Les Chats » selon le paradigme structuraliste. Si nous mentionnons cet article, c’est parce qu’il nous semble étroitement lié au reste de notre article. En effet, le projet structuraliste est essentiellement une approche quantitative comme le montrent les résultats obtenus par Jakobson et Lévi-Strauss. Ils relèvent ainsi, par exemple, que :

« seul le second quatrain montre un excédent de phonèmes liquides, à savoir 23, contre 15 au premier quatrain » et  le nombre des /r/ est légèrement supérieur à celui des /l/ dans les quatrains, légèrement inférieur dans les tercets ».

Jakobson & Lévi-Strauss (1962)

Seulement, pour ce faire, les auteurs ne peuvent que recourir à leur capacité humaine de comptage. Les résultats, bien qu’ils soient suffisants pour leur analyse, pourraient être encore plus nombreux si les auteurs avaient à dispositions des moyens de comptage et de calcul plus avancé. Or, c’est exactement ce dont disposent les théoriciens de la littérature contemporains et qui motive l’émergence des nouvelles approches comme le Distant Reading auxquelles nous reviendrons par la suite. 

Au vu de ce que nous venons de mentionner, nous pouvons avancer que la théorie littéraire est depuis longtemps sujette à l’émergence de nouvelles approches. En ce sens, on peut définir ce domaine davantage par sa visée que par ses méthodes. La théorie littéraire, c’est la volonté de connaître, comprendre et expliquer la construction d’un texte dit « littéraire ». Ainsi, le terme est générique et devrait toujours être accompagné d’une mention des moyens mobilisés pour atteindre ce but. Dès lors, on pourrait considérer l’approche « computationnelle » comme une spécification du domaine « théorie littéraire » au même titre que le structuralisme en a été un moment important. De plus, bien que les approches quantitatives soient évidemment minoritaires dans ce domaine, la question de la pertinence de telles méthodes n’est pas inédite et était déjà discutée dans les années 60. Le problème se pose aujourd’hui en des termes nouveaux, certes, mais l’enjeu épistémologique est sensiblement similaire.

De nouveaux principes épistémologiques

Porté par le besoin de justifier intellectuellement la pertinence du recours à l’approche quantitative de l’analyse littéraire, Moretti affirme que la mesure rend certains concepts « réels ». On pourrait avancer que la théorie littéraire, jusqu’à ce jour, n’a été en mesure que de proposer des grilles de lectures articulées autour de notions clés telles que : le protagoniste, à distinguer du narrateur4 , l’espace-personnage et bien d’autres. Or, selon Moretti, seule la mesure est capable de montrer qu’un concept est pertinent. Il écrit :

What I will say is that the leap from measurement to reconceptualization […] demonstrates how the unprecedented empirical power of digital tools and archives offers a unique chance to rethink the categories of literary study.

Moretti (2016)

D’un point de vue épistémologique, la mesure a donc une incidence considérable sur la théorie littéraire. Par son introduction, il deviendrait possible d’entreprendre une opération de « tri », de grande révision des concepts selon qu’ils puissent être vérifiés par une analyse quantitative ou non. Autre exemple : la notion de protagoniste se révèle pertinente également, comme cela avait été démontré par Moretti toujours dans son article « Network Theory, Plot Analysis » où l’auteur proposait une spatialisation sous forme de réseau de Hamlet. Par la visualisation des relations (edges) entre les personnages (vertices), Moretti a pu mesurer que la distance moyenne (average distance) qui sépare le protagoniste Hamlet des autres personnages de la pièce est de 1.42, là où celle de l’antagoniste Claudius est de 1.65. 

Cette entreprise de révision est explicite chez certains auteurs, notamment par Bridgman, cité par Moretti. Une science qui évolue se doit de remettre constamment en question les notions dont elle fait usage pour produire de nouvelles connaissances. Or, la pertinence des concepts dépend directement des types de méthodes qui sont mises en place. Par conséquent, on peut légitimement imaginer qu’une science par essence quantitative n’aurait que faire de concepts qualitatifs. On peut prendre ici l’exemple du sentiment tragique que mentionne Moretti en s’appuyant sur la conception de Hegel. Le tragique est défini par Hegel comme la confrontation de deux personnages dont les intérêts sont inconciliables, rencontre qui donne lui à de la parole, à du discours. Moretti voit dans la mention du discours la présence d’un mesurable, c’est-à-dire d’un matériau qui se prête à une étude quantitative. Pour tester son hypothèse selon laquelle le tragique est un concept toujours pertinent pour le distant reading, Moretti propose de relever les mots les plus fréquents qu’Iphigénie et Créon s’adressent l’un à l’autre, dans la pièce de Racine Iphigénie. Selon lui, le corpus obtenu pour chacun des personnages devrait être clairement dérivé de deux champs lexicaux idéologiquement opposés (ici : le ciel, les dieux pour Iphigénie et l’état, le pouvoir pour Créon). 

Se pose dès lors un problème conséquent. Moretti et les théoriciens de la littérature qui font la jonction entre les méthodes anciennes et contemporaines semblent quelque peu embarrassés par des notions qui pourtant font pleinement partie du lexique des études littéraires. Difficile d’affirmer que l’idée de tragique ne renvoie à rien. La catégorie de tragédie classique semble aujourd’hui si bien intégrée à l’analyse littéraire que s’en débarrasser créerait un manque dans le discours. Or, lorsqu’une nouvelle science se constitue un lexique, le critère déterminant n’est pas la familiarité des locuteurs avec le mot, mais bien s’il s’intègre de manière cohérente au sein du nouveau paradigme. Nous pouvons considérer que cela est une limite à l’intégration des sciences computationnelles dans le champ des disciplines littéraires. Nous pouvons toutefois également croire que cela fait partie du processus d’institution d’une nouvelle approche scientifique que de devoir « sacrifier » des termes qui pourtant ont prouvé leur utilité par le passé. De plus, Moretti ne se positionne pas en faveur d’une « éradication » de ces termes, mais simplement en prescrit l’usage à qui veut participer au projet du distant reading par exemple. 

Culturomics

Penser pouvoir établir un panorama de la culture française du début du XIXe siècle en étudiant Illusions perdues de Balzac (dont on estimera le nombre de mots à 250’000) semble scientifiquement douteux. Prenez maintenant un corpus de 45 milliards de mots vous aurez une idée de l’évolution du français sur plus de deux siècles. C’est la thèse des auteurs d’un article publié dans Science en 2010 et cité plus de 1’100 fois, intitulé : « Quantitative Analysis of Culture using millions of Digitized books ». Grâce aux millions de livres numérisés par Google, les chercheurs ont eu accès à un corpus linguistique d’une largeur impressionnante et proprement impossible à analyser pour des chercheurs humains sans l’aide d’un logiciel d’analyse statistique. C’est le lancement de « culturomics », défini par ses créateurs comme : 

« the application of high-throughput data collection and analysis to the study of human culture. […] Culturomics results are a new type of evidence in the humanities. As with fossils of ancient creatures, the challenge of culturomics lies in the interpretation of this evidence »

Michel et al. (2011)

 Le projet est ambitieux et inédit, du moins dans ses termes. Parmi les observables, les auteurs de l’article proposent une analyse de l’évolution du lexique et de la grammaire de l’anglais. Mais ils ciblent également des objets beaucoup plus précis, par exemple l’usage du terme « slavery » entre 1800 et 2000. Bien entendu, cela ne va pas sans un discours sur la société et son évolution. Plus le corpus mobilisé et large, plus on peut espérer qu’il soit représentatif des tendances de son temps. Ainsi, la place qu’occupait les questions relatives à l’esclavage dans les esprits des Américains pendant la guerre civile (1861-1865) deviendrait mesurable. Plus étonnant encore, les créateurs de Culturomics présentent un graphe montrant l’évolution de la censure et l’effacement du nom de Trotsky dans les textes russes entre 1900 et 2000 par exemple. Selon les auteurs, ces résultats sont comparables à l’usage que font les paléontologues des fossiles, c’est-à-dire qu’ils sont des preuves à partir desquels il est possible de faire des suppositions de ce à quoi la vie ressemblait à une époque révolue. Reste à savoir jusqu’où il nous est possible de reconstruire le passé sur la simple base d’un corpus de mots, aussi exhaustif soit-il5

Conclusion

L’introduction des approches quantitatives dans les études littéraires est certainement un sujet intéressant en soi. Mais, en conclusion de cet article, nous voulons insister sur le fait que l’évolution de la science est en grande partie réductible à l’histoire des techniques. Comme nous l’avons vu, l’émergence de l’analyse littéraire computationnelle dépend étroitement de la possibilité qu’offrent Internet et les nouvelles technologies de créer un lieu qui rassemble une quantité de textes impressionnante. Cela ne signifie pas que le développement de la science est absolument contingent. Comme l’a dit Aristote, tous les hommes désirent naturellement savoir. Nous pouvons ajouter que chaque avancée technologique attise ce désir de savoir. Les scientifiques, ces hommes et femmes chez qui ce désir de savoir oriente leur vie, sont prompts à investir ces nouveaux moyens de comptage, de calcul, de traitement de données. Et c’est pourquoi il est important de prendre le recul nécessaire à l’observation des implications épistémologiques de ces changements. 


Bibliographie

Beaude, Boris, « (re)Médiations numériques et perturbations des sciences sociales contemporaines », in Sociologie et sociétés, volume 49, numéro 2, Automne 2017, p. 83–111. 

Beaude, Boris, Internet. Changer l’espace, changer la société, Limoges, FYP Editions, 2012.

Bernard, Michel & Bohet, Baptiste, Littérométrie. Outils numériques pour l’analyse des textes littéraires, Paris, Presses Sorbonne Nouvelle, 2017.

Boot, Peter, « Distant Reading. Franco Moretti, in Digital Scholarship in the Humanities, vol. 30, n°1, Avril 2015, pp.152-154.

Ciotti, Fabio, « Distant reading in literary studies: a methodology in quest of theory », in testo e Senso, n°23, Décembre 2021, pp.195-213.

Hammond, Adam, Literature in the Digital Age. An Introduction, Cambridge, Cambrige University Press, 2016.

Jakobson, Roman, and Lévi-Strauss, Claude, “ » Les Chats  » de Charles Baudelaire”, in L’Homme, vol. 2, no. 1, 1962, pp. 5–21.

Mayaffre, Damon, L’intelligence artificielle des textes : des algorithmes à l’interprétation, Paris, Honoré Champion Éditeurs, 2021.

Michel, Jean-Baptiste et al., « Quantitative Analysis of Culture Using Millions of Digitized Books », in Science, vol. 331, Janvier 2011, pp.176-182.

Moretti, Franco, Distant Reading, Londres, Verso, 2013

Moretti, Franco, La littérature au laboratoire, Paris, Ithaque, 2016.

Paige, Nicholas D., Technologies of the Novel, Cambridge, Cambrige University Press, 2021.

Schuwey, Christophe, Interfaces. L’apport des humanités numériques à la littérature, Neuchâtel, Livreo-Alphil, 2019.

Servern, Katie E., Dryden, Ian L. & Preston, Simon P., « Manifold valued data analysis of samples of networks, with applications in corpus linguistics », Ann. Appl. Stat. 16 (1) 368 – 390, March 2022.

  1. Pour une réflexion plus approfondie sur Internet comme espace, voir Beaude (2012).
  2. Nous faisons référence ici aux questions des droits d’auteurs et au domaine public. La digitalisation des livres ne va pas sans remettre en question la législation relative aux livres
  3. Méthode qui peut également donner lieu à des surprises à la lecture : il arrive que les mains des personnes en charge de tourner les pages soient scannées avec le texte
  4. On peut prendre l’exemple de Figures III de Genette qui invente le concept de narrateur interne uniquement pour comprendre la Recherche du temps perdu de Proust
  5. Il suffirait de se demander qui, quel sociotype, est à l’origine de la plupart des textes mobilisés par les auteurs pour remettre en doute la capacité des textes à représenter une culture entière

PortilloFernandez