
ArchéoBot : Vers une pédagogie interactive et inclusive en archéologie grâce à l'IA générative
Simiand, Guillaume, Vincenzo Capozzoli, et Alain Duplouy. « ArchéoBot : Vers une pédagogie interactive et inclusive en archéologie grâce à l'IA générative ». In Journées d'Études sur l'Intelligence Artificielle JEDDAME. Toulouse, France: Université Jean Jaurès Toulouse, 2024.
ArchéoBot : Vers une pédagogie interactive et inclusive en archéologie grâce à l'IA générative
En 1985, Steve Jobs espérait qu'on pourrait un jour « capturer la vision du monde d'Aristote dans un ordinateur » et qu'un étudiant pourrait non seulement lire ses mots, mais lui poser une question — et obtenir une réponse. Quarante ans plus tard, nous n'avons toujours pas capturé Aristote, mais nous avons essayé quelque chose de plus modeste et peut-être de plus utile : permettre à des étudiants en archéologie de « dialoguer » avec un chercheur vivant et un chercheur disparu, via un agent conversationnel qui cite ses sources. C'est le propos de cette communication, présentée aux Journées d'études JEDDAME à Toulouse avec Vincenzo Capozzoli et Alain Duplouy.
Le problème de départ
L'enseignement de l'archéologie à l'université fait face à une difficulté structurelle que le numérique accentue sans la créer : les effectifs croissent, les profils se diversifient, les rythmes d'apprentissage divergent, et les enseignants ne sont disponibles ni à toute heure ni pour tout le monde. Un « répétiteur automatique » semblait une réponse raisonnable — à condition de ne pas reproduire les défauts des LLM généralistes, dont le principal, pour une discipline comme l'archéologie, est l'absence de traçabilité de l'information. L'archéologie est une science éminemment contextuelle : ses méthodes et son épistémologie sont sans cesse réévaluées par l'expérience empirique. Une réponse qui ne dit pas d'où elle vient n'a aucune valeur.
L'architecture en trois couches
ArchéoBot articule trois mécanismes. Le premier est un système RAG (Retrieval-Augmented Generation) qui couple le modèle de langue à une base vectorielle alimentée par un corpus de 900 documents et 90 millions de signes — cours, articles, ouvrages, archives, vidéos de colloques transcrites. La recherche combine vecteurs denses (sémantiques) et vecteurs creux (mots-clés) pour optimiser la pertinence des documents retrouvés, avec une étape de reclassement qui exploite le fait que les LLM accordent davantage d'importance aux premiers et aux derniers documents fournis.
Le deuxième est une architecture Skeleton of Thought, qui décompose les requêtes complexes en sous-tâches parallélisées. C'est ce qui permet de produire des réponses articulées — définitions, analyses, exemples, résumé — en une à deux minutes, et non les trois phrases convenues que produirait un modèle non augmenté.
Le troisième est l'intégration de Zotero pour la gestion bibliographique, qui rend chaque réponse auditable : un simple lien renvoie au document source. Les chercheurs gèrent leur corpus dans un outil qu'ils connaissent ; ils n'ont pas à toucher à la base vectorielle.
Dialoguer avec les morts
L'ambition la plus originale du projet — et la plus incertaine — concerne la possibilité de « dialoguer » avec des chercheurs à travers leurs écrits. Nous avons constitué deux corpus d'auteur. Celui d'Alain Duplouy, dont la production en open access a été importée via HAL. Celui de Francis Croissant (1943-2019), rassemblé à partir de Persée, OpenEdition et de photocopies papier océrisées — une centaine de textes, couvrant plus de cinquante ans de recherche en archéologie grecque.
L'expérience a été testée en séminaire de master. Les étudiants interrogent ArchéoBot sur les travaux de ces deux chercheurs, obtiennent des réponses sourcées dans leurs publications, puis critiquent ces réponses. L'exercice est double : il porte sur le contenu archéologique, mais aussi sur la manière dont le système construit ses réponses à partir des sources — une forme d'archéologie du savoir numérique, si l'on accepte le jeu de mots avec Foucault.
Ce qui reste ouvert
L'article ne dissimule pas les difficultés. L'OCR des publications anciennes bute sur les polices typographiques historiques. Les images archéologiques — schémas, plans topographiques, mobilier — portent un discours autonome que le système ne sait pas encore intégrer. La pondération des sources dans la base reste un problème non trivial : nous avons observé des déséquilibres de surreprésentation qui faussent les réponses. Et le coût de fonctionnement, si l'on ouvre le système à des cohortes entières, impose des arbitrages douloureux entre qualité (modèles propriétaires) et accessibilité (modèles ouverts). Nous avons posé ces questions plus clairement que nous n'y avons répondu — ce qui est peut-être, après tout, la fonction première d'un article de recherche.