XTRL0R, une machine à alexandrins

Genèse

Les minutes, mortel folâtre, sont des gangues
Qu'il ne faut pas lâcher sans en extraire l'or ! – Baudelaire, « L'Horloge », Les Fleurs du mal

XTRL0R extrait l'or poétique enfoui dans la prose la plus prosaïque. Les minutes de Baudelaire, c'est ici le temps que l'on passe (que l'on perd ?) dans la prose, mais aussi, en un sens plus ancien, ces minutes judiciaires dont il faut remuer des quantités considérables pour en tirer un peu de métal précieux.

J'étais tombé sur un alexandrin accidentel, un vers blanc comme on dit parfois, dans un arrêt de la Cour de cassation. Sachant le volume immense des décisions publiées, je me suis pris à rêver des vers involontaires qu'elles devaient receler. Rares, ou abondants ? De quoi composer des recueils entiers restés inaperçus ? Extraire et recomposer me semblait une voie prometteuse. La lecture d'Uncreative Writing de Kenneth Goldsmith m'a ensuite conforté dans cette intuition, par la transposition qu'il propose du cadre théorique de l'art conceptuel vers la poésie, et par l'idée de remettre en jeu des corpus préexistants.

Détecter le vers dans la prose

D'où l'idée d'un algorithme capable de repérer, dans un texte suivi, les séquences qui répondent aux canons du vers, et de l'alexandrin en particulier. Deux difficultés se présentaient. La définition d'un vers recevable a beaucoup varié au fil des siècles, surtout pour le traitement de l'e caduc, des diérèses et des synérèses. Et il fallait travailler sur un corpus « sauvage », où la syllabation de nombreux mots (sigles, noms propres, formules latines) ne pouvait pas être tirée d'un simple dictionnaire et devait être prédite. À ma connaissance, aucun outil n'avait alors été conçu pour cette tâche précise.

Deux traditions, deux méthodes

XTRL0R tient de deux familles d'approches. Un système par règles, fondé sur des conditions explicites et sur des lexiques de prosodie, présente l'avantage d'être entièrement explicable et de s'appuyer sur des règles bien établies ; mais sa complexité croît vite, plusieurs centaines de règles sont à implémenter, et il reste fragile devant les mots qu'il ne connaît pas. L'apprentissage machine, à l'inverse, gère bien les données inconnues et garde un code plus clair, au prix d'une part d'opacité, le propre des décisions d'un réseau de neurones n'étant pas aisément explicable, et d'un grand besoin d'exemples annotés.

Pour les mots hors lexique, j'ai entraîné un modèle de séquence à séquence à base de réseau de neurones récurrent à mécanisme d'attention (LSTM), qui prend une suite de lettres et prédit la prononciation française en notation SAMPA. Il a été entraîné sur environ 1 300 000 mots et leur prononciation, segmentée en syllabes, tirés du Wiktionnaire. Le modèle fonctionne bien, mais il renvoie une prononciation courante, sans tenir compte des diérèses ni des synérèses.

Du tout-règles au tout-réseau, puis retour

La première architecture mêlait règles, lexiques et un module d'apprentissage profond. Elle plafonnait à un taux de reconnaissance des alexandrins de 60 à 65 %, freinée par les e caducs et par les règles fluctuantes de diérèse et de synérèse, et par une base de code de plus en plus lourde. J'ai donc tenté l'inverse, un système entièrement fondé sur l'apprentissage profond, en assemblant un corpus d'environ 240 000 alexandrins et en éprouvant divers algorithmes, des forêts aléatoires aux réseaux profonds. L'expérience, une belle « lecture distante » au sens de Franco Moretti, a buté sur un obstacle simple : les séquences de douze syllabes sont bien plus fréquentes qu'on ne l'imagine, et un compteur de syllabes ne suffit pas à faire un vers.

Retour à la règle, donc, mais une règle affinée. En approfondissant le traitement de l'e caduc et en m'appuyant sur le lexique des diérèses et synérèses développé par l'équipe du CRISCO de l'université de Caen, le taux de reconnaissance est monté à 87 % sur mon corpus de test.

Les terrains explorés

La 7e chambre

Les arrêts de la Cour de cassation furent le premier terrain. J'ai baptisé cette instance du projet la « 7e chambre », ajout indispensable aux six bien réelles de la Cour : chambre spectrale et transversale, c'est la chambre du poète, au sein même du palais de justice. Le corpus réunit les fonds CASS et INCA publiés sur data.gouv.fr, plus de 3 Go de texte brut. Mais un algorithme qui sait extraire un alexandrin d'un arrêt sait l'extraire de n'importe quel texte ; d'autres corpus ont donc suivi.

Quelques autres pêches

L'Anausée traite La Nausée de Sartre, roman réputé pour ses alexandrins blancs, volontaires ou non. Le phénomène avait été étudié par Gérald Purnelle (« " Excusez-moi, monsieur " », Poétique n° 144, 2005), ce qui m'a décidé à le soumettre à XTRL0R. L'idée, après extraction, était d'anagrammiser les vers obtenus, l'algorithme s'efforçant ensuite, tant bien que mal, d'en apparier les rimes. La fin de ce poème recombiné de façon semi-aléatoire m'a laissé un vif souvenir, et tient lieu de programme :

Le soleil descendait lentement sur la mer
Ce soleil et ce ciel n'étaient que tromperie
J'ai dépassé le champ d'action du réverbère

Dépasser le champ d'action du réverbère : c'est resté l'objectif.

D'autres instances ont prolongé l'exercice. La Recherche du temps gagné s'attaque aux œuvres complètes de Proust. L'Art Total recompose des poèmes à partir des documents de référence et communiqués de presse de Total. Les Promenades de l'algorithme solitaire revisitent les œuvres complètes de Rousseau, la promenade ou random walk nous installant déjà dans l'imaginaire des algorithmes. Enfin le Tribunal fédérimes, présenté lors d'un séminaire à Genève, applique XTRL0R aux arrêts du Tribunal fédéral suisse, soit environ 16 000 décisions tirées au hasard, dont quelque 5 000 en français.

Page 17 de la communication XTRL0R

Le traitement de ce matériau « sauvage » a ses traits propres : abondance des césures 4/8 ou 8/4 et des césures enjambantes, noms étrangers prononcés à la française, et de bons résultats, somme toute, sur les noms propres, les sigles et les initiales.

Quels plagiaires par anticipation ?

XTRL0R est, à ma connaissance, le premier système spécifiquement conçu pour extraire des vers d'un texte en prose. Il emprunte à deux traditions. La poésie générative d'abord, idée ancienne chez les oulipiens, où l'ALAMO et Jean-Pierre Balpe font figure de précurseurs, et que Goldsmith a reformulée dans le cadre de l'art conceptuel ; mais la génération s'y fait d'ordinaire mot à mot, non par recyclage de textes existants. L'étiquetage automatique de la poésie ensuite, avec le « Métromètre » de Valérie Beaudouin (2002) ou l'« Anamètre » d'Éliane Delente et Richard Renault au CRISCO (2015) ; mais aucun de ces outils, faute de savoir traiter les mots hors lexique, n'était employé pour l'extraction et la génération. Poésie extractive, sampling : il fallait nommer la chose.

Perspectives

Rétrospectivement, XTRL0R posait déjà une question que l'essor de l'intelligence artificielle a rendue plus pressante. Si la reconstruction du sens revient tout entière au lecteur, quelle place reste-t-il à l'auteur ? Quelles émotions peut susciter un texte non pas composé, mais extrait par un auteur non humain, algorithmique, fantomatique ? La poésie est-elle, comme les mathématiques, découverte ou inventée ?

Le chantier d'une version 2.0 reste ouvert : génération de poèmes complets, attention portée à la proximité sémantique et à la cohérence syntaxique, poursuite du travail avec le CRISCO autour du décompte par noyaux syllabiques, et peut-être un retour aux approches profondes à partir du corpus Malherbe. Restent aussi à imaginer de nouveaux corpus, et un usage pour ces 240 000 alexandrins déjà rassemblés.

Avec son orthographe empruntée au leetspeak et l'imaginaire du hacking qu'il convoque, XTRL0R se veut un instrument d'exploration transversale et de recomposition, capable de révéler des zones de perturbation dans un langage en ruine. Le projet et l'écosystème d'algorithmes oudropiens qui l'entoure, de Pseudonom à Legislator, de la 7e chambre au Tribunal fédérimes, ont fait l'objet d'une présentation devant l'Oudropo,, sous le titre « XTRL0R, une machine à alexandrins, et autres algorithmes oudropiens ».