En quatre mois, une intelligence artificielle a transcrit plus de 32.000 manuscrits médiévaux. Formidable avancée technologique ou vertigineux défi pour les chercheurs ? J’ai plongé dans ce projet hors norme piloté par l’Inria et j’en suis ressorti fasciné… mais un peu inquiet.

Une IA nourrie par des années de travail humain rigoureux sur des manuscrits complexes et multilingues
L’aventure commence loin des serveurs et des algorithmes : elle prend racine dans le travail patient d’une équipe de philologues et de chercheurs. Pendant plusieurs années, ils ont retranscrit à la main 200 000 lignes de textes médiévaux, du 9e au 16e siècle, dans pas moins de 11 langues différentes. Leur but ? Fournir un matériau d’apprentissage d’une richesse inégalée.
Cette diversité linguistique et graphique n’est pas un luxe, mais une nécessité. L’écriture manuscrite ancienne regorge de pièges : abréviations à foison, orthographes instables, erreurs de copistes jamais corrigées. Impossible d’entraîner une IA sérieusement sans exposer l’algorithme à toute cette complexité. Ce corpus hétérogène, fidèle à la réalité des manuscrits, permet de former un système robuste et adaptatif.
L’équipe s’est appuyée sur deux logiciels open source, Kraken et eScriptorium, qui permettent d’entraîner un système de transcription visuelle sans recourir aux grands modèles de langage. Une stratégie payante : le moteur ainsi conçu évite les interprétations hasardeuses. Il ne cherche pas à comprendre le texte, mais à en reproduire fidèlement chaque signe graphique, comme un copiste numérique ultra-précis.
Une reconnaissance graphique brute, rapide et fiable mais sans interprétation linguistique
Ce qui frappe, c’est la vitesse : 32 763 manuscrits transcrits en seulement quatre mois. Des documents venus de Gallica, ARCA, E-Codices, Oxford ou Munich, traités en série et mis en ligne sur la plateforme CoMMA. Pour chaque texte, le pourcentage de lignes reconnues correctement est indiqué. Parfois moins de 50 %, souvent plus de 90 %. Pas de réécriture, pas de correction : la transcription brute est une révolution méthodologique.
Mais comment une IA fait-elle pour distinguer un « ri » d’un « n », ou reconnaître un numéro suscrit ? La réponse, c’est qu’elle ne comprend pas : elle interprète graphiquement. Et c’est là tout l’enjeu. Ces modèles ne “lisent” pas au sens humain, ils repèrent des formes. C’est une logique de reconnaissance visuelle, pas d’interprétation sémantique. C’est un œil bionique, pas une intelligence herméneutique.
Pourquoi les IA comme GPT ou Mistral sont inefficaces face à l’écriture manuscrite ancienne
Il serait tentant d’imaginer ChatGPT ou Mistral à la rescousse, n’est-ce pas ? Mauvaise idée. Ces modèles sont formés pour produire du texte, pas pour interpréter des signes graphiques isolés. Et au Moyen Âge, il n’y avait ni orthographe normalisée ni syntaxe rigide. Le chaos graphique du manuscrit médiéval échappe aux modèles linguistiques.
En fait, la reconnaissance des manuscrits est plus proche de l’analyse d’image que de la linguistique. Voilà pourquoi les chercheurs ont choisi une autre voie : entraîner l’algorithme à voir, et non à comprendre. C’est contre-intuitif, mais redoutablement efficace. Cette approche visuelle redonne toute sa matérialité au texte ancien.
Accès massif aux textes mais surcharge pour les historiens : un nouveau défi scientifique à relever
Avec des milliers de manuscrits désormais accessibles sur la plateforme CoMMA, les historiens disposent d’une mine d’or documentaire. Mais cette richesse soulève un paradoxe : comment analyser autant de textes, avec le soin et la rigueur que nécessite l’interprétation historique ? Trop d’accès tue parfois la compréhension. L’abondance documentaire devient un défi méthodologique.
Face à cette avalanche de données, de nouveaux outils devront émerger : exploration sémantique, visualisation intelligente, priorisation des corpus. Car l’IA dicte un rythme effréné, bien loin du temps long de l’analyse. Il ne s’agit plus seulement de lire les textes, mais de les organiser, de les mettre en relation, et peut-être… de les réinventer. Le futur de la recherche historique pourrait bien être hybride, entre humain et machine.
Par Gabrielle Andriamanjatoson, le
Source: Science et Avenir
Étiquettes: intelligence artificielle, manuscrit médiéval
Catégories: Actualités, Histoire, Robots & IA