- Congrès : Séminaire OMNSH-Epitech : le numérique au service des sciences humaines et sociales (2022-04-25)
Résumé
Dans cette intervention, Aurélien Pellet et Marie Puren présenteront le projet AGODA, financé par le DataLab de la Bibliothèque nationale de France, qui a pour objectif de mettre en ligne les comptes-rendus annotés des débats parlementaires de la fin de la Troisième République (1889-1893). Ce projet est conçu comme une preuve de concept, permettant de mettre en place les différents outils nécessaires au traitement de cette importante masse de documents historiques. Les intervenants se concentreront plus particulièrement sur l’océrisation de ces documents : l’extraction du texte, à partir de ces documents numérisés, est en effet une étape décisive, qui n’est pas sans poser beaucoup de problèmes. La qualité des documents et de la numérisation rend en effet difficile cette opération. Aurélien Pellet et Marie Puren présenteront ainsi les problèmes rencontrés et les solutions choisies pour les surmonter.
Partager sur les réseaux sociaux
Publications de chercheur
Publication de chercheur
CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts
Communication dans un congrès
- Date de parution : 2024
Publication de chercheur
Layout Analysis Dataset with SegmOnto
Communication dans un congrès
- Date de parution : 2024
Publication de chercheur
Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts
Communication dans un congrès Nouveau
- Date de parution : 2024