Handling Heavily Abbreviated Manuscripts: HTR engines vs text normalisation approaches

Congrès : International Conference on Document Analysis and Recognition 2021 (2021)
Pages : 306-316

Consulter la fiche HAL

Résumé

Although abbreviations are fairly common in handwritten sources, particularly in medieval and modern Western manuscripts, previous research dealing with computational approaches to their expansion is scarce. Yet abbreviations present particular challenges to computational approaches such as handwritten text recognition and natural language processing tasks. Often, pre-processing ultimately aims to lead from a digitised image of the source to a normalised text, which includes expansion of the abbreviations. We explore different setups to obtain such a normalised text, either directly, by training HTR engines on normalised (i.e., expanded, disabbreviated) text, or by decomposing the process into discrete steps, each making use of specialist models for recognition, word segmentation and normalisation. The case studies considered here are drawn from the medieval Latin tradition.

Disciplines

Humanités numériques

Partager sur les réseaux sociaux

À découvrir

Découvrez d'autres productions de l'École sur les mêmes thématiques.

Humanités numériques

Consulter la page «Humanités numériques»

Computational Museology in the Age of Experience

Vidéo
- Sarah Kenderdine
Whose Pen Wrote the Map? Battling Over the Armenian Medieval Text Ashkharhatsuyts with Stylometry

Publication de chercheur
- Jean-Baptiste Camps,
  Chahan Vidal-Gorène
From questions to insights: a reproducible question-answering pipeline for historiographical corpus exploration

Publication de chercheur
- Lucas Terriel,
  Vincent Jolivet
A Riddle in a Haystack: LLM Detection of Intricate Wordplays in Colette and Willy's Novels for Authorship Attribution

Publication de chercheur
- Florian Cafiero,
  Marie Puren
Greening your database of literary works: How to avoid reinventing vocabularies, in favor of sustainable, reusable models

Publication de chercheur
- Kelly Christensen,
  Jean-Baptiste Camps
Évaluation automatique du retour à la source dans un contexte historique long et bruité : les débats parlementaires de la Troisième République française

Publication de chercheur
- Aurélien Pellet,
  Julien Perez,
  Marie Puren
Style in Eight Syllables: Metric Annotation and Stylometry of Chrétien de Troyes and Contemporaries

Publication de chercheur
- Jean-Baptiste Camps,
  Florian Cafiero,
  Philippe Chaumet-Riffaud,
  Damien Conceicao,
  Ulysse Godreau,
  Émilie Guidi,
  Théo Moins,
  Pierre-Alexandre Nistor,
  Benedetta Salvati,
  Alexandre Lionnet-Rollin
The times are a-changin': présent vs passé simple in French novels (1811-2024)

Publication de chercheur
- Simon Gabay,
  Jean Barré,
  Florian Cafiero
Consulter la page «Humanités numériques»

Nous suivre

Handling Heavily Abbreviated Manuscripts: HTR engines vs text normalisation approaches

Résumé

Résumé

Disciplines

Humanités numériques

Partager sur les réseaux sociaux

À découvrir

Humanités numériques

Computational Museology in the Age of Experience

Whose Pen Wrote the Map? Battling Over the Armenian Medieval Text Ashkharhatsuyts with Stylometry

From questions to insights: a reproducible question-answering pipeline for historiographical corpus exploration

A Riddle in a Haystack: LLM Detection of Intricate Wordplays in Colette and Willy's Novels for Authorship Attribution

Greening your database of literary works: How to avoid reinventing vocabularies, in favor of sustainable, reusable models

Évaluation automatique du retour à la source dans un contexte historique long et bruité : les débats parlementaires de la Troisième République française

Style in Eight Syllables: Metric Annotation and Stylometry of Chrétien de Troyes and Contemporaries

The times are a-changin': présent vs passé simple in French novels (1811-2024)