Ruines de Babylone – Photo : Bazil Amin / Wikimedia Commons, CC BY-SA 4.0

A new way of teaching archaeology through generative AI: the archaeological « logoscope » of the Paris 1 Panthéon-Sorbonne University

Archéologie
IA
Pédagogie
Logoscope

Simiand, Guillaume, Vincenzo Capozzoli, et Alain Duplouy. « A new way of teaching archaeology through generative AI: the archaeological « logoscope » of the Paris 1 Panthéon-Sorbonne University ». In Interfaceing 2024. Taïwan National University, 2024.

ArchéoBot : un agent conversationnel sourcé pour l'archéologie

Cette communication, présentée à plusieurs reprises en 2024, rend compte d'ArchéoBot, agent conversationnel conçu à l'Université Paris 1 Panthéon-Sorbonne par une équipe associant deux archéologues, Vincenzo Capozzoli et Alain Duplouy, et un spécialiste d'humanités numériques, Guillaume Simiand.

Genèse du projet

En septembre 2023, en réponse à un appel à projets pédagogiques numériques de Paris 1 Panthéon-Sorbonne, l'équipe a lancé ArchéoBot. L'agent est conçu pour l'archéologie et ses méthodes, avec l'ambition d'enrichir la formation en salle de classe et d'accompagner les étudiants, de la Licence au Master, dans leur travail de révision. À partir de l'année 2024-2025, il propose une assistance sourcée et des « scénarios pédagogiques » ajustés à chaque étudiant, ponctués de QCM générés à la demande pour préparer l'évaluation finale.

L'interface reprend le modèle désormais familier des agents conversationnels : un champ de texte unique, accessible via un espace dédié sur la plateforme Moodle, où l'étudiant formule sa question. D'abord pensé comme un « répétiteur automatique », ArchéoBot a vite débordé cette fonction. En une à deux minutes, il génère une réponse construite autour d'un plan clair, avec définitions, analyses, exemples et résumé. Sa particularité tient surtout à ce qu'il cite ses sources à la fin de chaque paragraphe.

L'enjeu est de donner le bon exemple aux étudiants tout en limitant les faiblesses des agents généralistes comme ChatGPT. Si les performances de base de ces derniers convainquent en mathématiques ou en informatique, elles restent limitées pour les sciences humaines et sociales, comme l'avaient souligné Caroline Muller et Frédéric Clavert lors de la table ronde luxembourgeoise de 2023 sur l'usage de ChatGPT dans l'enseignement supérieur. L'archéologie est une science profondément contextuelle, dont la méthode et l'épistémologie se réévaluent sans cesse au contact de l'expérience empirique. ArchéoBot s'appuie pour cette raison sur un vaste corpus numérique de ressources scientifiques contextualisées, afin que l'étudiant puisse resituer les connaissances et exercer son esprit critique.

Une base de connaissances et l'obligation de citer ses sources

Le cœur d'ArchéoBot, au-delà de son architecture logicielle, est sa base de connaissances. Elle rassemble près de 900 documents, soit quelque 90 millions de signes, de natures complémentaires : cours des enseignants, articles issus de bases de recherche, ouvrages de référence, archives numérisées au format PDF, interventions vidéo et podcasts de colloques. La transcription des cours et la conversion des contenus audiovisuels en texte ont mobilisé des outils comme Whisper, et les métadonnées incomplètes ont été complétées manuellement.

Sur le référencement de l'information, il vaut la peine de relire un texte de Marc Bloch. Il s'agit d'un discours prononcé en juillet 1914, lors d'une distribution des prix, alors que Bloch était professeur au lycée d'Amiens, bien avant son Apologie pour l'histoire ou Métier d'historien. Lucien Febvre, ami et collègue avec qui il avait fondé les Annales en 1929, le publia en 1950, six ans après l'exécution de Bloch par les Allemands en juin 1944. Plus d'un siècle après, ces lignes restent d'une actualité saisissante face aux réponses produites par l'IA :

L'art de discerner dans les récits le vrai, le faux et le vraisemblable s'appelle la critique historique. […] Citer ses témoins, ou, comme on dit quelquefois ('citer ses sources'), est le premier devoir de l'historien. De l'historien seulement ? […] Un camarade vous raconte qu'un de vos amis a commis je ne sais quelle sottise. Avant de le croire, priez-le de vous citer ses sources. Vous découvrirez parfois qu'il n'en avait pas d'autres que sa propre imagination. […] 'La plupart des hommes, plutôt que de chercher la vérité, qui lui est indifférente, préfèrent adopter les opinions qu'on leur apporte toutes faites.' Il y a plus de deux mille ans que Thucydide a écrit cette phrase désabusée qui n'a pas cessé d'être vraie. Il faut un effort pour contrôler. Il n'en faut pas pour croire. […] L'esprit critique, c'est la propreté de l'intelligence. Le premier devoir, c'est de se laver.

L'un des écueils des robots conversationnels généralistes est précisément qu'ils citent rarement leurs sources, et qu'ils en inventent parfois de fictives. On peut, en prêtant à l'agent une intentionnalité imaginaire, dire qu'il a si bien compris l'argument d'autorité qu'il s'en sert pour justifier ses réponses, fût-ce au prix de faux. Le lecteur devient alors ce « crédule trop souvent trompé ». L'un des enjeux d'ArchéoBot est d'imposer au système l'obligation de citer ses sources, c'est-à-dire de tracer l'information et de renvoyer à une source identifiée et fiable.

L'architecture d'ArchéoBot

L'équipe a conçu ArchéoBot pour ses propres besoins et contre les limites des LLM non « augmentés » : hallucinations, brièveté excessive des réponses, absence de visibilité sur les sources, impossibilité de les choisir ou de les pondérer. La traçabilité de la donnée a guidé toute la conception.

La nouveauté tient à l'assemblage de trois idées développées séparément, mais qui, prises ensemble, dépassent la somme des parties : l'articulation d'un système RAG sur une architecture de type skeleton of thought, avec, pour la partie RAG, une gestion scientifique du document accessible sans code via Zotero.

Le RAG (Retrieval-Augmented Generation), décrit en 2020 dans « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks », appareille un modèle de langue à une base de données vectorielle qui fournit une approximation chiffrée du contenu sémantique des documents. Cette architecture se banalise dans les systèmes qui augmentent les LLM ; OpenAI le fait par exemple avec son GPT Store.

Le skeleton of thought, moins connu, a été proposé dans un article de 2023, « Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding ». Il cherche à pallier l'imprécision, la brièveté et la lenteur de génération sur les textes longs en décomposant la tâche initiale et en parallélisant le traitement des fragments. L'idée est féconde, et l'on pourrait aller bien plus loin qu'ArchéoBot dans cette direction en exploitant les LLM les plus performants pour la génération de fragments brefs, comme les modèles de Mistral.

Reste la question des hallucinations. Le terme est discutable, car ces productions ne diffèrent pas vraiment, par nature, de la production souhaitable des LLM, et leur inévitabilité, qui découle de cette nature même, a encore été confirmée récemment (« Hallucination is Inevitable: An Innate Limitation of Large Language Models »). Cela ne les rend pas inutiles : dans un message de décembre, Andrej Karpathy comparait judicieusement leurs productions aux produits du rêve. Le décryptage des erreurs subtiles qui s'y glissent en réserve pour l'instant l'usage aux experts. L'expertise limite le risque, mais les systèmes RAG sont par défaut des boîtes noires, sans indication des documents employés, et sans garantie sur la qualité bibliographique des sources : pour un travail scientifique, on ne peut se contenter de déposer des PDF en vrac dans un dossier. D'où une gestion bibliographique avancée appuyée sur l'API de Zotero, pour ne pas réinventer l'eau tiède. Le logiciel étant déjà utilisé par de nombreux chercheurs, il évite d'avoir à manipuler directement la base vectorielle. L'avantage décisif d'ArchéoBot tient à ce que la réponse est auditable : le chercheur ou l'étudiant accède aux documents sources par un simple lien.

La version complète recourt à une méthode d'ensemble pour mélanger recherche par vecteur dense (sémantique) et par vecteur clairsemé (sparse vector, fondée sur les mots-clés). Une étape de reclassement (re-ranking) réordonne ensuite les documents par pertinence, pour exploiter le fait que le LLM accorde plus de poids aux premiers et aux derniers documents qui lui sont fournis. L'interface expérimentale permet de varier le nombre de documents et de tester divers modèles d'OpenAI et de Mistral, dont Mixtral, l'un des modèles partiellement ouverts les plus performants disponibles.

Perspectives et questions ouvertes

L'infrastructure représente une avancée sur les agents généralistes, mais elle exige des mises à jour régulières face à l'évolution des LLM, des frameworks et des techniques de prompt engineering. La priorité immédiate est d'enrichir la base de connaissances, ce qui permettra de tester le système à grande échelle et d'analyser ses modes de défaillance. ArchéoBot est programmé pour refuser de répondre quand il manque d'informations, mais des hallucinations restent possibles si on le pousse dans ses retranchements. Il faudra étudier les liens entre la densité des documents et la nature des requêtes, afin de repérer un éventuel seuil de « distance » entre une question et les documents disponibles, au-delà duquel le système entrerait dans une « zone à risque ». Identifier ce seuil permettrait de prévenir l'utilisateur.

L'enrichissement de la base passera par l'insertion de publications anciennes, qui devront d'abord être océrisées, avec les difficultés bien connues de la reconnaissance des typographies anciennes, sujet du projet de recherche d'Antoine Doucet (« Artificial Intelligence: Robust and multilingual analysis of historical documents »). Mais l'enjeu majeur sera l'océrisation et le traitement des images (schémas, plans topographiques, mobilier archéologique) qui abondent dans le corpus. Ces illustrations sont rarement de simples compléments visuels : elles constituent à elles seules un discours, sans toujours être explicitées dans le texte. La vision par ordinateur et l'apprentissage multimodal (image to text) seront indispensables.

Il faudra aussi pondérer justement les références pour éviter qu'un contenu ne soit sur ou sous-représenté ; de tels déséquilibres ont déjà été observés. La segmentation des documents en séquences de tokens demande la même attention : la base étant composée de publications longues, riches en informations contextuelles dispersées, une segmentation mal réglée risque de perdre du contexte. C'est elle qui fait passer d'un système qui fonctionne à un système qui fonctionne vraiment.

Reste enfin le coût de fonctionnement, déterminant si l'on veut ouvrir l'outil aux étudiants. La perte de qualité demeure sensible avec les meilleurs modèles open source, seuls envisageables, du point de vue du coût, devant des cohortes nombreuses. On espère une amélioration avec la prochaine génération de grands modèles ouverts, comme Llama 3. OpenAI conserve une nette avance pour le RAG sur de larges corpus et, jusqu'à une date récente, pour la qualité de décomposition des tâches.

La concurrence et la place d'ArchéoBot

Lors de sa conception, ArchéoBot ne paraissait pas avoir d'équivalent. L'univers de l'IA générative a depuis évolué très vite : GPT personnalisés, modules complémentaires de ChatGPT comme ScholarAI et GPT Scholar, ou encore Perplexity et son Focus Academic. Ces solutions, intéressantes pour le grand public, restent à un stade précoce et adoptent une approche généraliste. Elles exploitent le RAG, mais avec des limites notables, y compris en matière de sécurité : un GPT personnalisé se restreint par exemple à vingt PDF de 512 Mo, soit environ deux millions de tokens, ou quelque 4 000 pages ; et, à l'exception de Perplexity, ces extensions exigent un abonnement payant.

Ces outils se présentent comme des solutions polyvalentes pour la recherche, adossées aux grandes bases internationales comme arXiv ou PubMed. Leur approche de « couteau suisse » offre de la flexibilité au détriment de la spécialisation, ce qui les rend moins efficaces pour les disciplines qui reposent sur des ressources locales. Des tests récents n'ont ainsi jamais permis de retrouver des références hébergées sur HAL, signe d'une invisibilité de la recherche française plus inquiétante, à notre sens, que les « biais culturels » souvent invoqués à propos des LLM. C'est là tout l'écart avec ArchéoBot : sa base spécialisée, son approche mono-tâche et sa prise en compte des sources locales en font un outil précieux pour la pédagogie comme pour la recherche.

De la pédagogie à la recherche : dialoguer avec les chercheurs

My hope is someday, we can capture the underlying worldview of Aristotle - in a computer. And someday, some student will be able not only to read the words Aristotle wrote, but ask him a question - and get an answer.

– Steve Jobs, Lund University, 1985

ArchéoBot répond à deux problèmes que se posaient des enseignants-chercheurs en archéologie : offrir aux étudiants un ensemble documentaire fiable où puiser les réponses, et susciter un véritable dialogue avec ces sources, c'est-à-dire avec d'autres archéologues, du présent comme du passé.

Pour le premier point, le corpus de référence porte sur les méthodes de l'archéologie. Stratigraphie, technologie et typologie sont à la racine de l'avènement de l'archéologie comme science au XIXe siècle ; leur maîtrise reste à la base du métier. La bibliographie, abondante et plurilingue (français, anglais, allemand notamment), a fait l'objet d'une sélection des textes fondamentaux et des manuels de référence, bientôt disponible en ligne sous forme de groupe Zotero.

Le second point ramène à l'espoir de Steve Jobs, celui de discuter avec Aristote, donc avec un savant. Deux cas se présentent : le savant vivant et le savant mort. Le savant vivant, ce sont les enseignants-chercheurs actuels, dont la mission inclut, outre l'accueil et la réussite des étudiants (Code de l'éducation, art. L123), la transmission des connaissances. Mais ils ne sont pas disponibles à toute heure, leurs disponibilités ne coïncident pas avec celles des étudiants, et seuls les étudiants inscrits à un moment donné, dans une filière donnée, sont concernés. Qu'en est-il des autres, ou des anciens ? Le savant mort, lui, a laissé une production scientifique qui, en sciences humaines et sociales, garde sa valeur, ne serait-ce que pour des raisons historiographiques. Comment dialoguer avec lui, comment rendre vie à sa pensée ?

Deux chercheurs ont été choisis : Alain Duplouy, membre du projet, et Francis Croissant, son maître à Paris 1. Toute leur production scientifique publiée a été rassemblée dans un dossier Zotero. Pour Duplouy, il a suffi de se connecter à son identifiant HAL et d'importer les textes en accès libre, en y ajoutant un ensemble privé de publications non disponibles en open access, notamment des monographies. Pour la plupart, ce sont des PDF en mode texte, sans océrisation. Francis Croissant, actif de 1965 à son décès en 2019, n'avait aucun dépôt personnel sur HAL : sa centaine de textes a été rassemblée en moissonnant Persée, OpenEdition et d'autres dépôts publics, complétés par des photocopies d'articles disponibles seulement au format papier, dont beaucoup ont dû être océrisés. L'ensemble permet désormais de « dialoguer » avec la pensée scientifique de ces deux chercheurs, dialogue qui fera l'objet d'un séminaire avec les étudiants de Master, occasion de tester à la fois ArchéoBot et leur capacité à « critiquer » ses réponses.

Conclusion : une rupture dans la production des savoirs

L'arrivée de Moodle et des Espaces Pédagogiques Interactifs avait déjà rendu l'enseignement plus inclusif et mieux adapté au rythme de chaque étudiant, transformant la relation entre enseignants et étudiants. L'IA n'est d'ailleurs pas nouvelle dans l'éducation : traduction automatique (DeepL), détection de plagiat (Compilatio), apprentissage des langues (Duolingo) en sont des auxiliaires familiers. Mais l'IA générative et l'ingénierie des prompts obligent à repenser les formations. Comme l'a formulé Jean-Marie Gilliot, informaticien à l'IMT Atlantique : « Si la calculette n'a pas supprimé la nécessité d'apprendre les concepts des 4 opérations, mais évite de devoir s'entraîner trop longtemps, la diffusion de la calculette scientifique a modifié la manière de dérouler un cours de maths ou de physique. » L'effet de l'IA générative sera comparable, sinon supérieur.

Le nom même du projet pose problème. ArchéoBot transcende la robotique et la fonctionnalité d'un simple chatbot ; le terme avait du reste déjà été employé, dès 2021, par un chercheur de l'université Rome La Sapienza pour un bot d'archéologie sur Telegram, puis par l'université de Manille en 2023 pour un robot dédié aux fouilles et à l'enregistrement des données. Nous l'avons désigné, tout au long de cette communication, comme un « agent conversationnel ». Mais son originalité réside surtout dans sa capacité à générer automatiquement des paragraphes isolés ou des dissertations complètes ; il relève à ce titre des outils de rédaction automatique de dissertation (Automatic Essay Writing). La question du nom rejoint deux enjeux qui dépassent la pédagogie : la protection des droits d'auteur dans la fouille textuelle, à laquelle des dispositions légales propres à l'éducation et à la recherche apportent une réponse partielle, et la réinvention des processus de création de connaissances. Les LLM étant développés par des entités privées guidées par des motivations financières, un glissement vers un open source total, du framework comme des modèles, sera à terme nécessaire pour protéger sources et données.

La construction du savoir n'est pas anodine. Avec sa base de connaissances, son langage et ses connexions propres, ArchéoBot participe d'une rupture plus générale dans la production des savoirs, amorcée avec les LLM et les IA génératives. Cette évolution entre en résonance avec L'Archéologie du savoir de Michel Foucault. Foucault n'a pas connu l'IA, mais ses concepts y prennent un relief nouveau : en générant du texte sans « auteur » au sens classique, l'IA pousse à l'extrême sa remise en cause de l'auteur comme origine du discours. Les règles encodées dans les modèles de langage, qui délimitent leurs capacités de production, font figure de nouveaux systèmes de contrainte régissant le discours. En produisant du savoir par agrégation et synthèse de vastes corpus, l'IA générative interroge l'authenticité et la valeur de la nouveauté ; en établissant des connexions que les humains n'envisageraient pas, elle pourrait ouvrir de nouvelles ruptures dans la manière dont les savoirs sont structurés et valorisés. L'intégration d'ArchéoBot, en amont, pendant ou en aval des cours, modifiera l'enseignement de l'archéologie et le regard des étudiants sur la discipline, ouvrant la voie à une nouvelle épistémologie.