Illustration représentant l'intersection entre algorithmes, droit et poésie

Algorithmes, droit, poésie : une exploration buissonnière

Algorithmes
Droit
Poésie
IA
Interdisciplinarité

Simiand, Guillaume. « Algorithmes, droit, poésie : une exploration buissonnière ». Présenté à Séminaire « Le droit algorithmique », Pr A. Flückiger, université de Genève, 5 novembre 2021.

Algorithmes, droit, poésie : une exploration buissonnière

Le débat sur l'intelligence artificielle remet en jeu des catégories mobilisées depuis bientôt deux siècles autour du progrès technique. En 1864, à la suite du premier grand accident ferroviaire survenu en France, Alfred de Vigny écrit, dans « La maison du berger » (Les Destinées), des vers où s'invente un imaginaire sombre de la machine : « Sur ce taureau de fer qui fume, souffle et beugle, / L'homme a monté trop tôt. Nul ne connaît encor / Quels orages en lui porte ce rude aveugle. » Un siècle plus tard, en 1967, le poète californien Richard Brautigan livre dans « All Watched Over by Machines of Loving Grace » une vision plus ambiguë du rapport entre l'homme et la machine : une « cybernetic meadow / where mammals and computers / live together in mutually programming harmony ». Ces deux poèmes ont ouvert une communication présentée au séminaire « Le droit algorithmique » du professeur Alexandre Flückiger, à l'université de Genève.

Deux imaginaires de la technique

Il est frappant de voir à quel point les arguments de Vigny réapparaissent, presque à l'identique, dans le débat sur l'IA en droit. La vitesse qui empêche de voir (« l'humaine créature / ne respire et ne voit, dans toute la nature, / qu'un brouillard étouffant que traverse un éclair »), la perte du hasard et de la délibération (« plus de hasard. Chacun glissera sur sa ligne, / immobile au seul rang que le départ assigne »), la soumission à une mécanique que personne ne pilote (« aucun n'est le maître / du dragon mugissant qu'un savant a fait naître ») : l'argument de la boîte noire de l'apprentissage profond rejoue, à peu de chose près, celui du monstre de fer.

Le poème de Brautigan, longtemps confidentiel, est devenu un emblème de l'ambiguïté des transformations sociales venues de la Silicon Valley. Fred Turner lui réserve une place de choix dans From Counterculture to Cyberculture. L'idée d'une « mutually programming harmony » entre les mammifères et les machines intéresse aussi le juriste : « first we shape our tools, then our tools shape us », formule souvent prêtée à McLuhan mais que l'on fait remonter à Churchill. Entre la terreur de Vigny et le songe de Brautigan, le rapport occidental à la technique oscille sans se fixer.

Un parcours de la lettre au sens

Le cœur de la communication propose un parcours dans les techniques de génération de texte, organisé selon un même axe : de la lettre vers le sens. À chaque étape correspond une question simple, quelle technique pour quel texte produit, et un terrain commun, le matériau juridique, qui sert d'éprouvette.

Les premières approches travaillent la lettre sans rien comprendre au sens. L'anagrammiseur recompose les caractères d'un article du Code civil et fait surgir des formules involontaires : « la loi ne dispose que pour l'navire », « chacun a droit au spectre de sa vie privée ». Viennent ensuite les chaînes de Markov, qui prédisent le caractère ou le mot suivant d'après une fenêtre étroite de contexte. Pseudonom engendre ainsi des patronymes imaginaires mais souvent vraisemblables, par chaînes de Markov à l'échelle de la lettre ; Legislator, qui publie ses articles fictifs sur Twitter, opère à l'échelle du mot et a produit plus de cinq cent mille articles depuis 2015. La limite de ces méthodes est connue : le texte obtenu n'a de sens qu'à l'échelle locale. Le modèle ne voit qu'une petite fenêtre et n'a aucune notion d'intention.

XTRL0R, ou la pêche aux alexandrins

Pour aller plus loin se pose un choix d'architecture : règles et lexique, ou apprentissage machine. Le système par règles a pour lui d'être entièrement explicable et de s'appuyer sur une prosodie bien établie, mais sa complexité croît avec le nombre de règles, qui se compte par centaines, et il échoue dès qu'un mot sort de son lexique. L'apprentissage machine, lui, gère les données inconnues et garde un code plus clair, au prix d'une boîte noire difficile à expliquer et d'un besoin massif d'exemples étiquetés.

XTRL0R est né de ce dilemme. Son principe : partir à la pêche dans l'océan de la jurisprudence pour en extraire les alexandrins qui s'y cachent. C'est ce que fait la 7e chambre, la chambre du poète, qui repère dans les arrêts de la Cour de cassation les séquences de douze syllabes : « L'association des insuffisants rénaux », « Condamne la société Guiot aux dépens », « Sur le premier moyen du pourvoi principal ». Un algorithme capable d'en tirer de la jurisprudence peut en tirer de n'importe quel texte.

Le développement a connu un détour instructif. Une première architecture mêlant règles, lexique et un module d'apprentissage profond plafonnait autour de soixante à soixante-cinq pour cent de reconnaissance, butant sur les e caducs, les diérèses et les synérèses, dont les règles ont fluctué au fil des siècles. Une expérimentation entièrement fondée sur l'apprentissage profond a suivi, avec un corpus d'environ deux cent quarante mille alexandrins et plusieurs familles d'algorithmes, des forêts aléatoires aux réseaux profonds. Belle expérience de « lecture distante » au sens de Franco Moretti, mais résultat décevant pour la tâche visée : les séquences de douze syllabes sont bien plus fréquentes qu'on ne le croit. D'où un retour aux règles. Le dénombrement des syllabes repose désormais sur un modèle de séquence à séquence à réseau neuronal récurrent, qui prédit la prononciation française d'une suite de lettres, entraîné sur près d'un million trois cent mille mots du Wiktionnaire ; il sert surtout à traiter les noms propres et les mots hors lexique, là où le système par règles est aveugle. Premier dispositif conçu spécifiquement pour extraire des vers d'un texte en prose, XTRL0R emprunte à deux traditions, la poésie générative et les approches outillées de la poésie.

Accéder au sens

La suite du parcours aborde le sens lui-même. Les plongements de mots et de phrases proposent une approximation géométrique de la signification et permettent un traitement à l'échelle du sens, sans toutefois lever encore les ambiguïtés. Des expériences plus libres en découlent : superposer le sonnet des « Voyelles » de Rimbaud aux répliques d'un film d'action, ou Le Dormeur du val aux dialogues d'un commando, pour observer ce que ces frottements produisent comme méta-métaphores involontaires. Enfin viennent les modèles massifs, GPT-3 et son application au code avec GitHub Copilot, dont l'enjeu se déplace vers les corpus et les modèles eux-mêmes.

Le juge et la loi, algorithmiques

Reste la thèse qui donnait son tranchant à l'ensemble, et que les juristes de l'assistance ont reconnue d'emblée : « Algoflash », le premier juge de France. Quelques lignes de pseudocode suffisent à penser ce qu'est devenue une part du contentieux automatisé, et à voir que la loi est, par sa structure, déjà un algorithme. Une série de règles conditionnelles transforme des faits en conséquences juridiques ; le syllogisme judiciaire, majeure légale, mineure factuelle, conclusion, est le plus ancien programme du monde, à ceci près qu'il tourne sur du tissu neuronal et non sur du silicium. Ce que l'IA modifie n'est pas la logique du droit mais la possibilité de l'exécuter sans intervention humaine.

Le travail poétique sur les textes juridiques n'est donc pas un divertissement latéral. En appliquant au droit des contraintes empruntées à la prosodie, on révèle des régularités que l'analyse ordinaire ne perçoit pas. La 7e chambre extrait des arrêts leurs douze syllabes cachées, et le résultat, souvent étrange, parfois beau, instruit sur la mécanique de la langue judiciaire. Entre le taureau de fer de Vigny et la prairie cybernétique de Brautigan, la position tenable est peut-être celle qui consiste à commencer par coder, puis à regarder ce que le code révèle de la loi qui l'a inspiré.