Archéo-Bot, le chatbot

En septembre 2023, répondant à un appel à projets pédagogiques numériques de Paris 1 Panthéon-Sorbonne, une équipe de deux archéologues et d'un spécialiste des humanités numériques a lancé ArchéoBot. L'agent est conçu pour l'archéologie et ses méthodes : accompagner les étudiants, de la licence au master, dans leurs révisions, et leur fournir un interlocuteur disponible quand l'enseignant ne l'est pas. Mais la fonction de répétiteur n'épuise pas le projet. La question qui l'a vraiment commandé est plus rétive qu'elle n'en a l'air : peut-on construire un agent conversationnel qui cite ses sources ?

Elle n'est pas d'abord technique, puisqu'on sait apparier un modèle de langue et une base documentaire. Elle est de méthode. Un chatbot qui n'indique pas d'où il tient ce qu'il affirme reproduit le travers que Marc Bloch dénonçait devant ses élèves du lycée d'Amiens, en juillet 1914, dans un discours de distribution des prix antérieur de plus de vingt ans à l'Apologie pour l'histoire, et que Lucien Febvre publia dans les Annales en 1950. « L'esprit critique, écrivait Bloch, c'est la propreté de l'intelligence. Le premier devoir, c'est de se laver. » Citer ses témoins, ajoutait-il, est le premier devoir de l'historien, mais pas de lui seul : il s'applique au présent comme au passé, au juré comme au lecteur de presse. Un siècle plus tard, le propos vaut pour les réponses produites par l'intelligence artificielle.

Le constat

Les LLM grand public posent un problème particulier aux sciences humaines. En mathématiques ou en informatique, on vérifie une réponse par le calcul ; en archéologie, en histoire, en littérature, on la vérifie en retournant aux sources, lesquelles sont contextuelles, dispersées, parfois en désaccord. Or ChatGPT, quand il ne se réfugie pas dans des réponses trop brèves, fabrique des références bibliographiques avec un aplomb qui forcerait l'admiration si la chose était moins préoccupante. Les limites des modèles généralistes dans ces disciplines avaient été soulignées dès 2023, lors de la table ronde luxembourgeoise sur l'usage de ChatGPT dans l'enseignement supérieur, notamment par Caroline Muller et Frédéric Clavert.

Ironie de la situation : si l'IA invente des sources, c'est précisément parce qu'elle a compris à quoi sert l'argument d'autorité. Elle s'en sert pour habiller ses réponses, et nombre de ces cautions sont fausses. Le lecteur se retrouve alors dans la peau de ce « crédule trop souvent trompé » dont parlait Bloch. ArchéoBot part du principe inverse : chaque paragraphe doit renvoyer à un document identifié et vérifiable. Le dispositif s'appuie sur une base de près de 900 documents, soit quelque 90 millions de signes : cours des enseignants, articles, ouvrages de référence, archives numérisées en PDF, mais aussi interventions vidéo et podcasts de colloques, transcrits avec des outils comme Whisper. La collecte, le renommage et la complétion des métadonnées ont demandé un travail manuel considérable.

Trois briques

La nouveauté du projet tient moins à chacune de ses composantes qu'à leur assemblage : trois idées avancées séparément dans la littérature, que le projet est sans doute le premier à faire tenir ensemble.

La première est l'architecture RAG (Retrieval-Augmented Generation), décrite en 2020, qui apparie le modèle de langue à une base vectorielle ancrant les réponses dans le corpus. La deuxième, moins répandue, est le Skeleton of Thought, proposé en 2023 : on décompose la requête en sous-tâches que l'on traite en parallèle, ce qui corrige la brièveté et la lenteur des réponses longues. C'est ainsi qu'ArchéoBot produit en une à deux minutes une réponse construite, avec définitions, analyses, exemples et synthèse, là où un modèle classique se contenterait de trois phrases vagues. La troisième est l'usage de Zotero pour la gestion des sources. Les hallucinations, qui découlent de la nature même des modèles et sont à ce titre difficilement évitables, ne disparaissent pas pour autant ; mais les systèmes RAG sont par défaut des boîtes noires, et l'on ne fait pas un travail scientifique en déposant des PDF en vrac dans un dossier. En s'appuyant sur l'API de Zotero, déjà familière à beaucoup de chercheurs, ArchéoBot leur épargne la manipulation directe de la base vectorielle et hérite de ses outils bibliographiques.

L'avantage tient en un mot : la réponse est auditable. L'enseignant ou l'étudiant accède aux documents source d'un simple lien. Dans sa version complète, le système combine recherche sémantique et recherche par mots-clés, puis reclasse les documents par pertinence pour exploiter le fait que le modèle accorde plus de poids aux premiers et aux derniers documents qu'on lui fournit. L'interface expérimentale permet de faire varier le nombre de documents et de tester divers modèles d'OpenAI et de Mistral.

Questions ouvertes

Le format de cette publication, deux pages dans La collection numérique, impose la concision. Les questions restées ouvertes, elles, pèsent plus lourd que les réponses. Il faudra étudier le lien entre la densité du corpus et la nature des requêtes, pour repérer le seuil au-delà duquel le système entre dans une zone à risque pour les hallucinations. Il faudra océriser les anciennes publications, avec les difficultés bien connues de la reconnaissance des typographies anciennes, mais surtout traiter les images, schémas, plans, mobilier archéologique, qui portent à elles seules un discours rarement explicité dans le texte. Restent la juste pondération des références, pour éviter les sur- et sous-représentations déjà observées, la segmentation des documents longs en séquences exploitables, et le coût de fonctionnement dès lors qu'on ouvre l'outil à des cohortes entières. Ces problèmes ne sont pas résolus. Nous avons au moins tenté de les poser honnêtement.