
ArchéoBot - Assistant pédagogique en archéologie
ArchéoBot
Le problème
En septembre 2023, répondant à un appel à projets pédagogiques numériques de l'Université Paris 1 Panthéon-Sorbonne, nous avons lancé ArchéoBot avec Vincenzo Capozzoli et Alain Duplouy — un agent conversationnel dédié à l'archéologie. Le constat de départ était simple : les LLM grand public comme ChatGPT hallucinent, ne citent pas leurs sources, inventent des références bibliographiques et donnent des réponses trop brèves sur des sujets qui exigent de la profondeur. Pour un usage pédagogique en sciences humaines, c'est rédhibitoire.
L'ambition : construire un outil qui sache ce qu'il dit et qui le prouve — un « répétiteur automatique » qui respecte les exigences élémentaires de la méthode scientifique. Comme le rappelait Marc Bloch dès 1914, « citer ses témoins est le premier devoir de l'historien ». Chaque paragraphe généré par ArchéoBot renvoie à ses références.
L'architecture
Le système repose sur trois briques techniques. D'abord un RAG — Retrieval-Augmented Generation — qui apparie le modèle de langue à une base de données vectorielle contenant le corpus scientifique : 900 documents, 90 millions de signes, issus de cours magistraux, d'articles peer-reviewed, d'ouvrages de référence, d'archives numérisées, de vidéos de colloques transcrites via Whisper.
Ensuite, le Skeleton of Thought, une méthode de 2023 qui décompose les requêtes complexes en sous-tâches parallélisées. C'est ce qui permet à ArchéoBot de produire des réponses structurées et détaillées en une à deux minutes, là où un LLM classique donnerait trois phrases vagues.
Enfin, l'intégration de Zotero pour la gestion bibliographique. Chaque document du corpus est indexé via l'API Zotero, ce qui offre un référencement transparent et vérifiable — et évite l'écueil de la boîte noire. Les chercheurs gèrent leur bibliographie dans un outil qu'ils connaissent déjà, sans manipuler de base de données vectorielle.
Dialoguer avec les maîtres
En 1985, Steve Jobs espérait qu'on pourrait un jour « capturer la vision du monde d'Aristote dans un ordinateur, et qu'un étudiant pourrait non seulement lire ses mots, mais lui poser une question — et obtenir une réponse ». Nous avons tenté l'expérience avec deux chercheurs.
Alain Duplouy, d'abord, dont l'intégralité de la production scientifique accessible en open access via HAL a été versée dans la base. Les étudiants de master peuvent interroger ArchéoBot sur ses travaux et obtenir des réponses sourcées dans ses publications.
Francis Croissant (1943-2019) ensuite. Sa centaine de textes a été rassemblée à partir de répertoires publics — Persée, OpenEdition — et de documents papier océrisés. Les étudiants peuvent ainsi « dialoguer » avec un maître disparu, confronter différentes approches épistémologiques et réfléchir à la construction des savoirs. L'expérience a été testée en séminaire de master.
Ce qui reste difficile
L'enrichissement continu de la base soulève des problèmes non triviaux. L'OCR des publications anciennes exige une reconnaissance adaptée aux polices typographiques historiques. Les images archéologiques — schémas, plans topographiques, mobilier — constituent un discours autonome, souvent riche en informations non explicitées dans le texte ; les intégrer exige des techniques de vision par ordinateur et d'apprentissage multimodal qu'on commence seulement à maîtriser.
Le coût reste un enjeu pour un déploiement à grande échelle. Les modèles propriétaires offrent la meilleure qualité mais sont chers ; les modèles open source (Mistral, Llama) coûtent moins mais perdent encore en précision. Pour des cohortes entières d'étudiants, l'arbitrage est délicat.
Publications
Dès décembre 2023, une première présentation du projet a paru dans La collection numérique sous le titre « Archéo-Bot, le chatbot » (Capozzoli, Duplouy, Giligny et Simiand) — deux pages serrées dans un numéro consacré à l'IA dans l'enseignement supérieur, où nous posions les principes du dispositif et ses questions ouvertes avec la concision que le format imposait.
En 2024, le projet a fait l'objet de deux communications plus développées. La première, « ArchéoBot : Vers une pédagogie interactive et inclusive en archéologie grâce à l'IA générative », présentée aux Journées d'études JEDDAME à l'Université Jean Jaurès de Toulouse, détaillait l'expérience de « dialogue » avec les chercheurs — vivants et disparus — et les enjeux d'inclusion pédagogique. La seconde, « A new way of teaching archaeology through generative AI », donnée à la conférence Interfacing the Past à l'Université nationale de Taïwan, revenait sur l'architecture technique et les défis ouverts : hallucinations, multimodalité, coût des modèles.
Un article de synthèse, « L'IA au service des SHS : ArchéoBot, un dialogue innovant entre pédagogie et recherche » (Simiand, Capozzoli et Duplouy), a été rédigé pour la revue 1257 ; il rassemble deux ans de retours d'expérience, du déploiement sur Moodle aux questions épistémologiques que soulève un outil qui produit du savoir par agrégation — questions que Foucault n'avait pas anticipées mais qu'il aurait peut-être reconnues.