OCR17: Ground Truth and Models for 17th c. French Prints (and hopefully more)

Revue : Journal of Data Mining and Digital Humanities (2023)

Consulter la fiche HAL

Résumé

Machine learning begins with machine teaching: in the following paper, we present the data that we have prepared to kick-start the training of reliable OCR models for 17th century prints written in French. The construction of a representative corpus is a major challenge: we need to gather documents from different decades and of different genres to cover as many sizes, weights and styles as possible. Historical prints containing glyphs and typefaces that have now disappeared, transcription is a complex act, for which we present guidelines. Finally, we provide preliminary results based on these training data and experiments to improve them.

Partager sur les réseaux sociaux

Publications de chercheur

Voir la liste complète

Publication de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Communication dans un congrès
- Ariane Pinche,
  Thibault Clérice,
  Jean-Baptiste Camps,
  Malamatenia Vlachou-Efstathiou,
  Matthias Gille Levenson,
  Olivier Brisville-Fertin,
  Federico Boschetti,
  Franz Fischer,
  Michael Gervers,
  Agnès Boutreux,
  Avery Manton,
  Simon Gabay,
  Wouter Haverals,
  Mike Kestemont,
  Caroline Vandyck,
  Patricia O'Connor,
  Alix Chagué
- Date de parution : 2024
Publication de chercheur

Layout Analysis Dataset with SegmOnto

Communication dans un congrès
- Thibault Clérice,
  Juliette Janes,
  Hugo Scheithauer,
  Sarah Bénière,
  Laurent Romary,
  Benoît Sagot
- Date de parution : 2024
Publication de chercheur

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Communication dans un congrès Nouveau
- Thibault Clérice
- Date de parution : 2024

Publications aux éditions de l’École

Voir la liste complète

Publication de l'École

La véridique histoire de l’arobase
- Marc H. Smith
Publication de l'École

L’Ordinaire mestre Tancré
- Frédéric Duval
Publication de l'École

Le malheur d’être femme
- Pascale Bourgain
Publication de l'École

Abécédaire insolite du livre ancien
- Christine Bénévent
Publication de l'École

La bibliothèque de Thou et ses catalogues
- Valérie Neveu
Publication de l'École

Positions des thèses 2023
- Promotion 2023
Publication de l'École

Des archives considérées comme une substance hallucinogène
- Michel Melot
Publication de l'École

L’historien face à l’animal
- Michel Pastoureau
Voir la liste complète

Sur les mêmes thématiques

Voir la liste complète

Applications, éditions et jeux de données

Voir la liste complète

Applications, éditions et jeux de données

Elec

Production, dev, bêta
- Édition de texte
- Porté par le CJM
Applications, éditions et jeux de données

Deucalion

Production
- Traitement automatique de la langue
Applications, éditions et jeux de données

DicoTopo

Production
- Porté par le CJM

OCR17: Ground Truth and Models for 17th c. French Prints (and hopefully more)

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Layout Analysis Dataset with SegmOnto

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

Représenter l'Algérie. Images et conquête au XIX^e siècle

Roi-Soleil et Dieu. Essai sur la religion de Louis XIV

Une « dissimulation profonde » : l’insondable duc de Marlborough

Où va l’État « à la française » ?

Applications, éditions et jeux de données

Elec

Deucalion

DicoTopo

OCR17: Ground Truth and Models for 17th c. French Prints (and hopefully more)

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Layout Analysis Dataset with SegmOnto

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

Représenter l'Algérie. Images et conquête au XIXe siècle

Roi-Soleil et Dieu. Essai sur la religion de Louis XIV

Une « dissimulation profonde » : l’insondable duc de Marlborough

Où va l’État « à la française » ?

Applications, éditions et jeux de données

Elec

Deucalion

DicoTopo

Représenter l'Algérie. Images et conquête au XIX^e siècle