Reconhecimento automático de manuscritos para o teste de idiomas não latinos

Revue : Programming Historian em português

Consulter la fiche HAL

Résumé

Este tutorial tem como objetivo descrever as boas práticas para a criação de conjuntos de dados e para a especialização dos modelos em função de um projeto HTR (Handwritten Text Recognition – em português, Reconhecimento de Texto Manuscrito) ou OCR (Optical Character Recoginition – em português, Reconhecimento Ótico de Caracteres) de documentos que não utilizam o alfabeto latino e, portanto, para os quais não existe ou é muito escassa a existência de dados para processamento. Assim, este tutorial visa mostrar abordagens de "minimal computing" (em português, computação mínima) para analisar coleções digitais de grande escala em línguas não latinas. O nosso tutorial concentrar-se-á num exemplo em grego antigo, propondo uma abertura ao tratamento de manuscritos em árabe magrebino.

Partager sur les réseaux sociaux

Publications de chercheur

Voir la liste complète

Publication de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Communication dans un congrès
- Ariane Pinche,
  Thibault Clérice,
  Jean-Baptiste Camps,
  Malamatenia Vlachou-Efstathiou,
  Matthias Gille Levenson,
  Olivier Brisville-Fertin,
  Federico Boschetti,
  Franz Fischer,
  Michael Gervers,
  Agnès Boutreux,
  Avery Manton,
  Simon Gabay,
  Wouter Haverals,
  Mike Kestemont,
  Caroline Vandyck,
  Patricia O'Connor,
  Alix Chagué
- Date de parution : 2024
Publication de chercheur

Layout Analysis Dataset with SegmOnto

Communication dans un congrès
- Thibault Clérice,
  Juliette Janes,
  Hugo Scheithauer,
  Sarah Bénière,
  Laurent Romary,
  Benoît Sagot
- Date de parution : 2024
Publication de chercheur

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Communication dans un congrès Nouveau
- Thibault Clérice
- Date de parution : 2024

Publications aux éditions de l’École

Voir la liste complète

Publication de l'École

La véridique histoire de l’arobase
- Marc H. Smith
Publication de l'École

L’Ordinaire mestre Tancré
- Frédéric Duval
Publication de l'École

Le malheur d’être femme
- Pascale Bourgain
Publication de l'École

Abécédaire insolite du livre ancien
- Christine Bénévent
Publication de l'École

La bibliothèque de Thou et ses catalogues
- Valérie Neveu
Publication de l'École

Positions des thèses 2023
- Promotion 2023
Publication de l'École

Des archives considérées comme une substance hallucinogène
- Michel Melot
Publication de l'École

L’historien face à l’animal
- Michel Pastoureau
Voir la liste complète

Sur les mêmes thématiques

Voir la liste complète

Applications, éditions et jeux de données

Voir la liste complète

Applications, éditions et jeux de données

Adele

Production
- Édition de texte,
  Images
- Porté par le CJM
Applications, éditions et jeux de données

DicoTopo

Production
- Porté par le CJM
Applications, éditions et jeux de données

Ecco

Bêta
- Édition de texte,
  Référentiel,
  Images
- Porté par le CJM

Reconhecimento automático de manuscritos para o teste de idiomas não latinos

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Layout Analysis Dataset with SegmOnto

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

Représenter l'Algérie. Images et conquête au XIX^e siècle

Roi-Soleil et Dieu. Essai sur la religion de Louis XIV

Une « dissimulation profonde » : l’insondable duc de Marlborough

Où va l’État « à la française » ?

Applications, éditions et jeux de données

Adele

DicoTopo

Ecco

Reconhecimento automático de manuscritos para o teste de idiomas não latinos

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Layout Analysis Dataset with SegmOnto

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

Représenter l'Algérie. Images et conquête au XIXe siècle

Roi-Soleil et Dieu. Essai sur la religion de Louis XIV

Une « dissimulation profonde » : l’insondable duc de Marlborough

Où va l’État « à la française » ?

Applications, éditions et jeux de données

Adele

DicoTopo

Ecco

Représenter l'Algérie. Images et conquête au XIX^e siècle