• Congrès : DHNord2025. Valoriser les données de recherche en humanités numériques : enjeux, pratiques, perspectives (2025-11-12 - 2025-11-14)

Résumé

La disponibilité croissante de “nouveaux” corpus numérisés (Salmi, 2021) et les changements technologiques rapides ont considérablement transformé le paysage historiographique. Les exploiter requiert des approches d’analyse de documents ou detraitement automatique des langues, qui ne font pas traditionnellement partie de l'outillage historien (Kemman, 2021) : c’est non seulement une nouvelle chaîne de traitement qui doit être mise en place, mais aussi une nouvelle chaîne d’acteurs que l’historien.ne doit intégrer, rassemblant institutions patrimoniales, chercheur.se.s transdisciplinaires et ingénieur.e.s (Bertrand, 2019 ; Bardiot et Ruiz, 2022). Tout ceci concourt à bouleverser le travail des historien.ne.s, en (re)mettant au centre de celui-ci les notions de “collaboration” et de “transdisciplinarité” (Dacos, 2011). Les fonds des bibliothèques et des archives regorgent donc de sources parfois méconnues ou peu exploitées de l’histoire sociale et économique qui concentre cependant une très grande quantité de données d’une grande valeur scientifique, à l’instar des annuaires, des fichiers de police, et autres registres. Pour les historien.ne.s, l’extraction systématique d’information dans ces corpus est rendue d’autant plus difficile que la lecture “humaine” se satisfait mal de leur caractère foisonnant et répétitif, et les institutions patrimoniales qui les conservent peinent à les valoriser pleinement. Enfin, pour l'ingénierie du document, ils constituent un défi majeur : d’une part, ces documents peuvent présenter une structure complexe qui évolue au fil du temps ; d’autre part, il s’agit de répondre aux impératifs de reproductibilité et de traçabilité des travaux de recherche en histoire (Rygiel et Lamassé, 2014), tout en fournissant des outils suffisamment génériques pour traiter l'ensemble de ces corpus. Notre application vise à répondre à un double défi technique et méthodologique : tirer profit des avancées technologiques récentes afin de dépasser la simple océrisation qui limite l’exploitation à la recherche plein texte, pour produire des connaissances structurées tout en respectant les critères d’une démarche scientifique rigoureuse et intègre pilotée par les experts du domaine. Un des éléments centraux relève de la séparation claire des responsabilités de chaque partie impliquée, afin de garantir le respect des principes de science ouverte : répliquer les résultats produits ; ne pas être tributaire de la gouvernance des systèmes d’IA commerciaux ; garantir l'interopérabilité des données produites ; garantir la pérennité des services offerts. Enfin, fournir aux chercheur.se.s en histoire — et plus largement en SHS — des outils leur permettant d’expérimenter aussi rapidement et librement que possible, en minimisant les contraintes de maintenance, est également un enjeu fondamental. Nous présenterons Mezanno, un écosystème d’outils en cours de développement, dont la principale interface “Corpusense” accompagne les chercheur.se.s au cours de plusieurs étapes clés de l’exploitation de sources sérielles, répétitives, massives et publiques. Il permet aux chercheur.se.s. de travailler de façon autonome tout en facilitant leur collaboration avec des experts en analyse de données si nécessaire. Corpusense permet d’importer des sources IIIF, de créer des collections et d’extraire automatiquement des données structurées. Corpusense se connecte directement aux services distants (images IIIF, API de transcription et de structuration) depuis le navigateur de l’utilisateur et lui donne alors une grande liberté de choix et un grand contrôle sur ses données. Les coûts d’infrastructures sont portés par ces services distants et peuvent donc être mutualisés. Cet ensemble d’outils, de standards et de documents est ouvert et a vocation à être extensible afin d’offrir un grand choix dans les traitements utilisés. La figure ci-après (et en annexe) illustre un de nos cas d’application : le processus d’extraction des orateurs, de leur intervention et des numéros des pages auxquelles elles sont consignées dans des tables du Sénat de la IIIe république.

    Partager sur les réseaux sociaux