ArchéoBot

Le point de départ

En septembre 2023, répondant à un appel à projets pédagogiques numériques lancé par l'Université Paris 1 Panthéon-Sorbonne, une équipe interdisciplinaire composée de deux archéologues, Vincenzo Capozzoli et Alain Duplouy, et d'un spécialiste d'humanités numériques a lancé ArchéoBot, un agent conversationnel dédié à l'archéologie et à ses méthodes. L'outil s'adresse aux étudiants de la licence au master et les accompagne dans leur travail de révision.

Le constat de départ tient en peu de mots. Les agents généralistes comme ChatGPT hallucinent, citent rarement leurs sources, inventent parfois des références bibliographiques et abrègent des réponses qui demanderaient de la profondeur. Pour un usage pédagogique en sciences humaines et sociales, ces défauts sont rédhibitoires. Le projet visait donc un « répétiteur automatique » qui respecte les exigences élémentaires de la méthode scientifique et qui, surtout, donne le bon exemple aux étudiants.

Citer ses sources

Le cœur du dispositif est sa capacité à indiquer ses sources à la fin de chaque paragraphe. Sur ce point, l'équipe aime relire un texte de Marc Bloch. Il ne s'agit pas de l'Apologie pour l'histoire, mais d'un discours prononcé en juillet 1914, lors d'une distribution des prix au lycée d'Amiens où Bloch était alors professeur, texte publié seulement en 1950 dans les Annales par son ami Lucien Febvre.

« Citer ses témoins, ou, comme on dit quelquefois, "citer ses sources", est le premier devoir de l'historien », écrivait Bloch, qui ajoutait : « De l'historien seulement ? Nous allons voir. » Et plus loin : « L'esprit critique, c'est la propreté de l'intelligence. Le premier devoir, c'est de se laver. » Plus d'un siècle après, ces lignes gardent leur tranchant à l'heure où les réponses sont fournies par l'IA. L'un des écueils des robots généralistes est précisément qu'ils citent peu leurs sources et qu'ils en inventent parfois de fictives. On pourrait dire, en leur prêtant une intention, qu'ils ont fort bien compris ce qu'est l'argument d'autorité, sauf que nombre de leurs justifications sont fausses. Le lecteur se retrouve alors dans la peau de ce « crédule trop souvent trompé » dont parlait Bloch. L'enjeu d'ArchéoBot est de tracer l'information et de la renvoyer à une source identifiée et fiable.

L'architecture

ArchéoBot repose sur l'assemblage de trois idées formulées séparément, que personne n'avait encore combinées.

La première est le RAG, Retrieval-Augmented Generation, décrit en 2020 dans l'article « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ». Le principe consiste à apparier un modèle de langue et une base de données vectorielle, qui donne une approximation chiffrée du contenu sémantique des documents. Cette base rassemble près de 900 documents, soit quelque 90 millions de signes, de nature variée : cours dispensés par les enseignants, articles sélectionnés dans des bases de recherche, ouvrages de référence, archives numérisées au format PDF, interventions vidéo et podcasts de colloques. Les contenus audiovisuels ont été transcrits avec Whisper, et les métadonnées incomplètes complétées à la main.

La deuxième est le Skeleton of Thought, proposé en 2023 dans « Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding ». La méthode décompose la tâche en fragments traités en parallèle, ce qui pallie l'imprécision, la brièveté des réponses et la lenteur de génération sur les textes longs. ArchéoBot produit ainsi, en une à deux minutes, une réponse articulée autour d'un plan clair, avec définitions, analyses, exemples et résumé.

La troisième est l'usage de Zotero pour la gestion bibliographique. Les systèmes de type RAG sont par défaut des boîtes noires : ils n'indiquent pas quels documents le modèle a utilisés, et pour un travail scientifique on ne saurait se contenter de déposer des PDF en vrac dans un dossier. S'appuyer sur l'API de Zotero, déjà familier à beaucoup de chercheurs, évite de réinventer l'eau tiède et dispense de manipuler directement la base vectorielle. La réponse devient auditable : par un simple lien, on accède aux documents source.

Dans sa version complète, le dispositif combine une recherche dense, sémantique, et une recherche éparse, fondée sur les mots-clés, puis reclasse les documents par pertinence pour exploiter le fait qu'un modèle accorde plus de poids aux premiers et aux derniers documents qu'on lui fournit. L'interface permet, dans cette phase expérimentale, de faire varier le nombre de documents et de tester divers modèles d'OpenAI et de Mistral, dont Mixtral, l'un des modèles partiellement ouverts les plus performants alors disponibles.

Dialoguer avec les chercheurs, vivants et disparus

En 1985, à l'université de Lund, Steve Jobs disait espérer qu'on puisse un jour « capturer la vision du monde d'Aristote dans un ordinateur, et qu'un étudiant puisse non seulement lire ses mots, mais lui poser une question, et obtenir une réponse ». ArchéoBot a permis de tenter l'expérience.

Réunir d'abord un corpus de référence sur les méthodes de l'archéologie. Stratigraphie, technologie et typologie sont à la racine de la constitution de l'archéologie en science au XIXe siècle ; leur maîtrise reste au fondement du métier. La bibliographie est abondante et plurilingue, surtout en français, en anglais et en allemand. Une sélection des textes fondamentaux et des manuels de référence a donc été versée dans la base, bientôt accessible aussi sous forme de groupe Zotero.

Faire ensuite dialoguer les étudiants avec des chercheurs. Deux cas se présentaient, le savant vivant et le savant disparu. Pour le premier, Guillaume Simiand, membre du projet, a importé l'ensemble de ses textes mis en open access sous son identifiant HAL, complétés par un ensemble privé de publications non accessibles sur HAL, notamment des monographies. Pour le second, le choix s'est porté sur Francis Croissant, maître de Simiand à Paris 1, actif de 1965 jusqu'à sa mort en 2019. Croissant ne disposait d'aucun répertoire personnel sur HAL : sa centaine de textes a été rassemblée en moissonnant les répertoires publics, Persée, OpenEdition, et en océrisant des articles disponibles seulement sur papier. Les étudiants peuvent ainsi confronter des approches épistémologiques différentes et réfléchir à la construction des savoirs. L'expérience a été menée en séminaire de master.

Ce qui reste à faire

L'infrastructure demande des mises à jour régulières, à mesure qu'évoluent les modèles et les techniques. La priorité immédiate est d'enrichir la base, ce qui permettra de tester le système à grande échelle et d'analyser plus finement ses défaillances. ArchéoBot refuse de répondre quand il manque d'informations, comportement souhaitable, mais des hallucinations restent possibles quand on le pousse. Il faudra étudier le lien entre la densité documentaire et la nature des requêtes, afin de repérer un éventuel seuil de « distance » au-delà duquel le système entre en zone à risque, et d'en avertir l'utilisateur.

L'insertion de publications anciennes suppose une océrisation adaptée aux polices typographiques d'autrefois, problème auquel s'attaque le projet d'Antoine Doucet sur l'analyse robuste et multilingue des documents historiques. Mais l'enjeu majeur tient aux images. Schémas, plans topographiques, mobilier archéologique : ces illustrations forment un discours à part entière, riche d'informations rarement explicitées dans le texte. Les traiter demandera des techniques de vision par ordinateur et d'apprentissage multimodal qu'on commence seulement à maîtriser.

Reste la question de la pondération des références, pour éviter qu'un contenu se trouve sur ou sous-représenté ; de tels déséquilibres ont déjà été observés. Reste aussi la segmentation des documents en séquences de tokens : sur des publications longues, où le contexte se disperse dans le texte, une mauvaise segmentation fait perdre des informations significatives. C'est de ce réglage que dépend la fiabilité réelle des réponses.

Reste enfin le coût. Les meilleurs modèles propriétaires offrent encore la qualité la plus haute, en particulier pour le RAG sur de grands volumes et pour la décomposition des tâches ; les modèles open source coûtent moins mais perdent en précision. Pour mettre l'outil devant des cohortes entières d'étudiants, l'arbitrage est délicat. On attend une amélioration de la prochaine génération de grands modèles ouverts.

Une concurrence en mouvement

À la conception du projet, ArchéoBot n'avait pas d'équivalent. Depuis, le champ a évolué vite : GPT personnalisés, modules de ChatGPT comme ScholarAI ou GPT Scholar, Perplexity et son Focus Academic. Ces outils exploitent eux aussi le RAG, mais demeurent généralistes et présentent des limites, y compris de sécurité. Les GPT personnalisés sont par exemple restreints à 20 PDF, et l'accès à la plupart de ces extensions suppose un abonnement payant.

Surtout, en s'appuyant sur les grandes bases internationales comme ArXiv ou PubMed, ils laissent dans l'ombre les disciplines qui reposent sur des ressources locales et moins indexées. Des tests n'ont jamais permis de retrouver des références hébergées sur HAL, ce qui révèle une invisibilité de la recherche française plus préoccupante, au fond, que les « biais culturels » souvent invoqués pour les modèles de langue. C'est là tout l'écart : sa base spécialisée, son approche mono-tâche et sa prise en compte des sources locales font d'ArchéoBot un outil utile à la pédagogie comme à la recherche en archéologie.

Le nom, et au-delà

Le nom même d'ArchéoBot ne va pas de soi. Le terme avait déjà été employé en 2021 par un chercheur de l'université de Rome La Sapienza pour un bot d'archéologie sur Telegram, puis en 2023 par l'université de Manille pour un robot de fouille et d'enregistrement des données. Ni « bot » ni « chatbot » ne rendent d'ailleurs justice au dispositif : capable de produire des paragraphes isolés comme des dissertations complètes, structurées et sourcées, il relève peut-être davantage de la rédaction automatique de dissertations (Automatic Essay Writing) que de l'agent conversationnel.

La nomenclature n'est qu'une question parmi d'autres. Deux enjeux la débordent : la protection des droits d'auteur dans la fouille textuelle, en partie réglée par des dispositions propres à l'éducation et à la recherche, et la manière dont l'IA générative participe à la fabrication des savoirs. Sur ce dernier point, la réflexion ne fait que commencer. Les grands modèles sont développés par des acteurs privés, mus par des intérêts financiers ; un glissement vers l'open source intégral, du framework jusqu'aux modèles, paraît à terme nécessaire pour protéger sources et données.

En produisant du texte par agrégation et synthèse, sans « auteur » au sens classique, ces systèmes prolongent étrangement les analyses de Michel Foucault dans L'Archéologie du savoir. Foucault ne connaissait pas l'IA, mais les règles encodées dans un modèle, qui délimitent ce qu'il peut produire, ne sont pas sans rappeler les systèmes de contrainte qui, selon lui, régissent le discours. Le rapprochement a ses limites ; il situe du moins la question au bon endroit, celle de la manière dont un tel outil produit du savoir, et pas seulement dont il le restitue.

Publications

Dès décembre 2023, une première présentation du projet a paru dans La collection numérique sous le titre « Archéo-Bot, le chatbot » (Capozzoli, Duplouy, Giligny et Simiand), deux pages serrées dans un numéro consacré à l'IA dans l'enseignement supérieur, où sont posés les principes du dispositif et ses questions ouvertes.

En 2024, le projet a donné lieu à deux communications plus développées. La première, « ArchéoBot : vers une pédagogie interactive et inclusive en archéologie grâce à l'IA générative », présentée aux Journées d'études JEDDAME à l'Université Jean Jaurès de Toulouse, détaillait l'expérience de « dialogue » avec les chercheurs et les enjeux d'inclusion pédagogique. La seconde, « A new way of teaching archaeology through generative AI », donnée à la conférence Interfacing the Past à l'Université nationale de Taïwan, revenait sur l'architecture technique et les défis ouverts.

Un article de synthèse, « L'IA au service des SHS : ArchéoBot, un dialogue innovant entre pédagogie et recherche » (Simiand, Capozzoli et Duplouy), a été rédigé pour la revue 1257. Il rassemble deux ans de retours d'expérience, du déploiement sur Moodle aux questions épistémologiques que soulève un outil produisant du savoir par agrégation.

ArchéoBot, un agent conversationnel pour l'archéologie