
A new way of teaching archaeology through generative AI: the archaeological « logoscope » of the Paris 1 Panthéon-Sorbonne University
Simiand, Guillaume, Vincenzo Capozzoli, et Alain Duplouy. « A new way of teaching archaeology through generative AI: the archaeological « logoscope » of the Paris 1 Panthéon-Sorbonne University ». In Interfaceing 2024. Taïwan National University, 2024.
ArchéoBot : Architecture et défis d'un assistant pédagogique
Cet article reprend les points techniques développés lors de la conférence Interfaceing 2024 à l'Université Nationale de Taïwan. Il détaille l'architecture du « logoscope » archéologique conçu à l'Université Paris 1 Panthéon-Sorbonne.
Genèse : dépasser les limites des modèles standards
Notre équipe a développé ArchéoBot pour répondre à des besoins spécifiques que les grands modèles de langage (LLM) non augmentés ne parvenaient pas à satisfaire. Nous nous heurtions régulièrement à leurs limitations intrinsèques : hallucinations fréquentes, réponses excessivement brèves, absence de visibilité sur les sources et impossibilité de les pondérer ou de les sélectionner.
La conception a été guidée par une philosophie claire : s'appuyer autant que possible sur des projets open source (avec toute la complexité que cette notion implique dans le contexte actuel des LLM) et, surtout, garder la maîtrise du destin de nos données.
Une architecture combinatoire
L'innovation principale de notre projet réside dans la combinaison de trois idées distinctes qui, articulées ensemble, produisent un résultat supérieur à la somme de leurs parties :
- Un système RAG (Retrieval-Augmented Generation).
- Une architecture de pensée en « Squelette » (Skeleton of Thought).
- Une gestion scientifique des documents facilitée via Zotero.
1. Le système RAG
Décrit dès 2020 (Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, arXiv:2005.11401), le RAG consiste essentiellement à coupler un modèle linguistique avec une base de données vectorielle. Cette base fournit une approximation numérique et encodée du contenu sémantique des documents. C'est une architecture qui devient aujourd'hui la norme pour étendre les capacités des LLMs.
2. Le « Skeleton of Thought »
Moins connue, cette approche décrite dans un article de 2023 (Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding, arXiv:2307.15337) vise à pallier la lenteur et l'imprécision des réponses sur les textes longs. L'idée est de décomposer la tâche originale en plusieurs fragments et de paralléliser leur traitement. Bien que nous ayons placé ce modèle au cœur d'ArchéoBot, nous pensons qu'il est possible d'aller beaucoup plus loin en utilisant des LLM spécifiquement optimisés pour la génération de fragments courts.
3. Zotero comme gestionnaire de sources
Le problème des hallucinations est central. Comme le rappelait Andrej Karpathy, les résultats des LLM s'apparentent aux produits du rêve : l'hallucination n'est pas un bug, c'est une limitation innée. Cela ne rend pas ces outils inutiles, mais impose une vigilance experte.
Le défaut majeur des systèmes RAG classiques est qu'ils fonctionnent souvent comme des boîtes noires, sans indication claire des documents utilisés. Pour un usage académique, il n'est pas envisageable de se contenter de déverser des PDF en vrac dans un dossier. C'est pourquoi nous avons intégré une gestion bibliographique avancée basée sur l'API de Zotero. Ce logiciel étant déjà le standard pour de nombreux chercheurs, il permet de gérer le corpus sans avoir à manipuler directement la base de données vectorielle.
L'avantage décisif d'ArchéoBot est ainsi la vérifiabilité : le chercheur ou l'étudiant peut accéder aux documents sources via un lien direct.
Fonctionnement pratique
La version complète d'ArchéoBot utilise des méthodes d'ensemble (ensemble methods) pour effectuer un mélange de recherches par vecteurs denses (pour l'aspect sémantique) et par vecteurs clairsemés (sparse vectors, pour une recherche par mots-clés plus conventionnelle).
Dans une étape supplémentaire, les documents sont réorganisés (re-ranking) par pertinence afin de tirer parti du fait que les LLM accordent généralement plus de poids aux premiers et aux derniers documents qui leur sont présentés. L'interface expérimentale permet non seulement de varier le nombre de documents sources, mais aussi de tester différents modèles, d'OpenAI à Mistral.
Perspectives et défis ouverts
Si l'infrastructure actuelle représente une avancée significative, elle nécessite des mises à jour constantes face à l'évolution rapide de l'IA générative.
La « zone à risque » des hallucinations
Nous devons examiner plus finement les relations entre la densité documentaire et les requêtes. Il existe probablement un seuil de « distance » entre une question et les documents disponibles au-delà duquel le système entre dans une zone à risque d'hallucination. Identifier ce seuil permettrait d'avertir l'utilisateur pour garantir un usage plus sûr.
Le défi du patrimoine et de l'image
L'enrichissement de notre base passera par l'intégration de publications anciennes, ce qui pose le défi de la reconnaissance optique de caractères (OCR) sur des typographies et des scans d'époque.
Mais au-delà du texte, le véritable défi pour ArchéoBot sera de numériser et traiter les images (diagrammes, cartes topographiques, dessins d'objets). En archéologie, ces figures ne sont pas de simples illustrations : elles constituent un discours à part entière. L'intégration de la vision par ordinateur et de l'apprentissage multimodal sera essentielle.
Coûts et modèles ouverts
Enfin, la question du coût d'exploitation est cruciale si l'on souhaite ouvrir l'outil aux étudiants. Pour l'instant, un écart de qualité subsiste entre les meilleurs modèles open source et les solutions commerciales. Pourtant, pour des raisons évidentes de budget, seuls les modèles ouverts (comme la série Llama) sont réalistement déployables à grande échelle. Nous espérons que les prochaines générations de modèles ouverts combleront cet écart, notamment pour la décomposition des tâches où OpenAI conserve encore une avance certaine.