Génération automatique de texte et littérature du XVIIIe siècle

Qu'est-ce qu'un modèle de langue « comprend » du style de Voltaire ? La question est mal posée — un modèle de langue ne comprend rien, au sens ordinaire du terme — mais elle est productive. Car si l'on entraîne un modèle génératif sur un corpus de textes du XVIIIe siècle et qu'on lui demande de produire du texte « à la manière de », ce qu'il reproduit — et ce qu'il échoue à reproduire — constitue un révélateur des propriétés stylistiques et rhétoriques du corpus d'entraînement. Le modèle agit comme un test projectif appliqué à la littérature : ce qu'il capture est ce que le texte a de régulier, de statistiquement saillant ; ce qui lui échappe est ce que le texte a d'irréductiblement singulier.

C'est le principe de cette recherche, qui se situe à la croisée de la stylistique computationnelle et de l'histoire littéraire.

Le corpus

Le corpus d'étude rassemble des textes de registres différents mais d'une même époque : des oeuvres de Voltaire, Diderot et Rousseau, des correspondances privées, des textes journalistiques du temps. Le choix de cette hétérogénéité est délibéré. Le XVIIIe siècle français est un moment où les frontières entre genres sont poreuses — Voltaire écrit des contes philosophiques qui sont des traités déguisés, Diderot produit des dialogues qui sont des romans qui sont des essais, Rousseau rédige un traité d'éducation qui est un roman sentimental. Un modèle entraîné sur ce seul corpus doit absorber cette porosité générique, et la manière dont il la restitue (ou non) est en soi un résultat.

La méthode

Nous avons procédé par fine-tuning de modèles GPT sur ce corpus, puis soumis les textes générés à une double évaluation : computationnelle d'abord (analyse des distributions lexicales, des structures syntaxiques, des marqueurs rhétoriques), qualitative ensuite (lecture par des spécialistes de la littérature du XVIIIe siècle).

L'approche n'est pas neuve dans son principe — la stylistique computationnelle existe depuis les années 1960, et les travaux pionniers de Busa sur Thomas d'Aquin avaient déjà montré ce qu'un traitement statistique du texte pouvait révéler. Mais les modèles de langue actuels changent l'échelle : on ne se contente plus de compter des occurrences, on génère du texte nouveau qui entretient avec le corpus d'entraînement un rapport complexe d'imitation et de déviation.

Ce que le modèle capture

Les résultats préliminaires sont instructifs. Le modèle reproduit avec une fidélité souvent troublante les structures argumentatives caractéristiques du XVIIIe siècle — cette manière de poser une thèse, de feindre de la réfuter, puis de la rétablir par un retournement. Il capture le lexique spécialisé de l'époque, les tournures syntaxiques récurrentes, certaines figures rhétoriques. Un texte généré « à la manière de Voltaire » a effectivement quelque chose de voltairien — la concision, le rythme ternaire, l'ironie par litote.

Mais il lui manque l'essentiel : la justesse du trait. L'ironie voltairienne n'est pas une propriété statistique ; elle est un calcul rhétorique précis, qui dépend du contexte, de la cible, du moment. Le modèle produit de l'ironie générique là où Voltaire pratiquait de l'ironie chirurgicale. La différence, invisible aux métriques computationnelles, est immédiatement perceptible à la lecture. Et c'est précisément cette différence qui intéresse le littéraire : elle dessine en creux ce que le style a d'irréductible au pattern.

Vers une poétique computationnelle

Le mot de « poétique computationnelle » figurant dans le titre de l'article est à prendre cum grano salis. Il ne s'agit pas de fonder une discipline nouvelle mais de montrer que les outils de génération automatique, utilisés non comme substituts mais comme analyseurs, peuvent aider à formuler des questions stylistiques avec une précision nouvelle. Qu'est-ce qui, dans un texte, est reproductible par une machine ? Qu'est-ce qui ne l'est pas ? La frontière entre ces deux zones n'est pas fixe — elle dépend du modèle, du corpus, de l'échelle d'analyse — et c'est cette mobilité même qui la rend heuristiquement intéressante.

Génération automatique de texte et littérature du XVIIIe siècle : vers une poétique computationnelle

Génération automatique de texte et littérature du XVIIIe siècle

Le corpus

La méthode

Ce que le modèle capture

Vers une poétique computationnelle