Touches d'une machine à écrire ancienne – Photo : Thad Zajdowicz / Wikimedia Commons, CC BY 2.0

Pseudonom - Le nom de personne

pseudonymisation
chaînes de Markov
droit
jurisprudence
oudropo

Pseudonom - Le nom de personne

Le dilemme de la Cour de cassation

Les grandes décisions des cours suprêmes portent souvent le patronyme du demandeur. Roe v. Wade, Marbury v. Madison, Costa c. ENEL.

Les arrêts célèbres ont un nom. C'est ainsi qu'on les retient, qu'on les cite, qu'on les enseigne. « L'arrêt Perruche », « l'affaire Benetton » : le nom fait la jurisprudence presque autant que le raisonnement.

Or la protection de la vie privée impose désormais l'anonymisation des décisions de justice, ce qui place la Cour de cassation devant un dilemme. Il faut à la fois préserver l'identité des justiciables et conserver la force normative des arrêts, leur capacité à être mémorisés, cités et discutés sous un nom distinctif. La formule retenue jusqu'ici, « M. X... c/ Mme Y... », ne remplit guère le second office.

Une proposition oudropienne

L'article « Casanova à la Cour de cassation », co-écrit avec Emmanuel Jeuland, examinait ce paradoxe. Le titre n'était pas qu'un jeu de mots : nous suggérions que la jurisprudence pouvait recourir aux recombinaisons de syllabes que pratiquait volontiers l'auteur de L'Histoire de ma vie, lui qui se rebaptisa chevalier de Seingalt.

Pseudonom est né de cette réflexion. L'idée est de produire automatiquement des noms de famille français qui sonnent juste sans identifier quiconque : des patronymes vraisemblables mais inexistants. L'anonymat par la pseudonymie.

L'algorithme

Le corpus d'entraînement

Pour capter l'onomastique française, il fallait un corpus large et représentatif. Le choix s'est porté sur la liste des conseillers municipaux de France, soit environ 930 000 noms, le plus gros corpus ouvert de patronymes que j'aie trouvé à l'époque. La source couvre l'ensemble du territoire et reflète la diversité démographique du pays.

Les chaînes de Markov

La technique est simple. Une chaîne de Markov modélise les probabilités de transition entre caractères : après « Mar », quelle lettre revient le plus souvent ? après « -tin » ? En analysant les séquences de lettres des patronymes réels, on obtient un modèle statistique capable d'engendrer des noms plausibles.

Corpus : Martin, Moreau, Bernard, Durand...
Analyse : M→a→r→t→i→n, M→o→r→e→a→u...
Génération : Mortin, Dureau, Marnard...

L'ordre de la chaîne (ici 4) fixe la « mémoire » du système, c'est-à-dire le nombre de caractères précédents qui influencent le suivant. Trop court, les noms deviennent bizarres ; trop long, on retombe sur des patronymes existants.

Filtrage et validation

Un nom généré n'est retenu que s'il fait entre 5 et 15 caractères, n'existe pas dans le corpus d'entraînement et respecte les règles de capitalisation (« de », « von » en minuscules, etc.). On pourrait ajouter une vérification dans les Pages blanches et un filtre des combinaisons malheureuses.

Exemples de génération

Quelques patronymes produits par Pseudonom :

| Générés | | ----------- | | Berraine | | Coajourneur | | Agostilly | | Crouperal | | Brianchet | | Coupelie | | Mezaach | | Houssinier |

Chaque rafraîchissement produit un nouveau nom, unique et vraisemblable.

Applications au-delà de la Cour

La technique sert partout où l'on doit désigner quelqu'un sans l'identifier : anonymisation des décisions à tous les niveaux de juridiction, jeux de données de test pour les systèmes informatiques, pseudonymes littéraires plausibles, personnages de fiction. Le procédé reste le même, seule change la destination.

Postérité : la CJUE

En janvier 2023, la Cour de justice de l'Union européenne a mis en place un système proche de celui que nous proposions en 2015. Depuis cette date, les affaires anonymisées reçoivent un nom fictif produit par « un générateur automatisé informatisé » qui « divise les mots en syllabes, qui sont ensuite combinées aléatoirement pour produire des noms fictifs ».

Même problème, donc, préserver la mémorabilité des arrêts malgré l'anonymisation, et même solution, la génération automatique de noms vraisemblables. Je n'ai pas trouvé trace d'une inspiration directe de notre article ; les mêmes contraintes produisent sans doute les mêmes solutions. La CJUE dispose d'un générateur par langue officielle de l'Union. Les noms produits « ne correspondent à la véritable identité d'aucune partie » et « ne représentent en principe aucun nom existant ».

Le vraisemblable inexistant

Pseudonom pose une question presque philosophique : qu'est-ce qui fait qu'un nom « sonne français » ? La réponse est statistique. Les combinaisons de lettres, leurs fréquences et leurs positions définissent un espace de possibilités dont les patronymes réels ne sont qu'un échantillon.

Engendrer le vraisemblable inexistant revient à explorer cet espace au-delà des noms effectivement portés, à dessiner des identités qui n'appartiennent à personne mais pourraient appartenir à n'importe qui. En ce sens, le projet est typiquement oudropien : une contrainte technique, les chaînes de Markov, ouvre un espace de création, les noms possibles, au service d'un problème réel, l'anonymisation.

Statut

Pseudonom, développé en 2015, attend sa remise en ligne. L'application Flask d'origine fonctionne toujours ; il suffirait de la conteneuriser pour la déployer.

Projet conçu dans le cadre d'une réflexion sur l'anonymisation des décisions de justice, présenté lors du séminaire de l'Oudropo.