Des chercheurs et des étudiants de l'École présentent leur travaux lors la conférence internationale LREC 2026 (Language Resources and Evaluation Conference), référence mondiale des technologies du langage.

Lundi 11 mai 2026 - Samedi 16 mai 2026

Palma de Majorque (Espagne)

Programme

La reconnaissance de caractères chinois anciens

11 mai, dans le cadre du workshop sur les technologies linguistiques pour les langues historiques et anciennes (LT4HALA)

Une équipe d’étudiants du master « Humanités numériques », lauréate de la compétition internationale EvaHan 2026 sur la reconnaissance automatique de textes issus de sources manuscrites en chinois (Handwritten Text Recognition (HTR)), présente ses travaux dans une communication intitulée « Building Character(s): Synthetic Data and In-Context Learning Strategies for Few-Shot Ancient Chinese Recognition ».

Édition numérique de la Patrologia Graeca

14 mai, dans le cadre du MainTrack de la conférence

Intervention de Chahan Vidal-Gorène, responsable pédagogique du master « Humanités numériques », avec Bastien Kindt (UCLouvain), intitulée « The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions ».

Les deux chercheurs présentent leur publication numérique d’un corpus de près de 6 millions de mots en grec ancien, construit automatiquement avec le développement de modèles IA (depuis 2020) à partir d’éditions imprimés de la Patrologia Graeca, collection majeure de textes antiques et médiévaux en langue grecque contenant les écrits des Pères de l'Église et d’autres auteurs ecclésiastiques, publiée par Jacques-Paul Migne entre 1857 et 1866.

Accéder au dépôt de données

Il s'agit d’une des plus importantes créations entièrement automatisée (par IA) de données en grec ancien, rassemblant une importante collection de textes de la Patrologia Graeca jamais numérisés par ailleurs. Ces données complètent ainsi les bases de données philologiques actuelles, et notamment le Thesaurus Linguae Graecae, en produisant un corpus open source qui pourra servir à l’entraînement de modèles d’IA de cette langue.

Consulter le prépublication

Les grands modèles de langue : de nouveaux alliés pour l’étude des langues rares et anciennes

16 mai

Chahan Vidal-Gorène, Florian Cafiero (EPITA, Centre Jean-Mabillon) et Bastien Kindt (UCLouvain) présente un tutoriel intitulé « Under-Resourced Studies of Under-Resourced Languages: Practical, Reproducible LLM-as-Annotator Pipelines Across Scripts and Domains ».

Cette formation expliquera comment utiliser les LLM grand public (ChatGPT, Mistral...) pour annoter les langues rares et anciennes, ou pour documenter du patrimoine.

Consulter le tutoriel

Image décorative générée avec ChatGPT — Image générée avec ChatGPT

Papier associé (publié à EACL 2026)

Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts

13 mai

Carolina Macedo, ingénieure Biblissima+ à l'École, présentera avec Lucence Ing (Inria) et Matthias Giles Levenson (ENS Lyon) un poster intitulé « Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts ».

Intervenant(s)

Chahan Vidal-Gorène

Responsable pédagogique du master « Humanités numériques »
Florian Cafiero

Enseignant-chercheur en intelligence artificielle pour les SHS
Carolina Macedo
Ingénieure (Biblissima+)

Partager sur les réseaux sociaux

À venir

Voir la liste complète

Des pixels au passé : l’IA au service du patrimoine culturel

Colloque et journée d’étude
Journée organisée par Marion Charpier, chercheuse à l'École
- Vendredi 15 mai 2026
- 9h-17h
150^e congrès du CTHS : « Histoires d’eau »

Colloque et journée d’étude
- Lundi 18 mai 2026 - Vendredi 22 mai 2026
Voir la liste complète

Nous suivre

L’École participe à la conférence internationale LREC 2026

Résumé

Lundi 11 mai 2026 - Samedi 16 mai 2026

Programme

La reconnaissance de caractères chinois anciens

Édition numérique de la Patrologia Graeca

Les grands modèles de langue : de nouveaux alliés pour l’étude des langues rares et anciennes

Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts

Intervenant(s)

Chahan Vidal-Gorène

Florian Cafiero

Carolina Macedo

Partager sur les réseaux sociaux

À venir

Des pixels au passé : l’IA au service du patrimoine culturel

150^e congrès du CTHS : « Histoires d’eau »

Nous suivre

L’École participe à la conférence internationale LREC 2026

Résumé

Lundi 11 mai 2026 - Samedi 16 mai 2026

Programme

La reconnaissance de caractères chinois anciens

Édition numérique de la Patrologia Graeca

Les grands modèles de langue : de nouveaux alliés pour l’étude des langues rares et anciennes

Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts

Intervenant(s)

Chahan Vidal-Gorène

Florian Cafiero

Carolina Macedo

Partager sur les réseaux sociaux

À venir

Des pixels au passé : l’IA au service du patrimoine culturel

150e congrès du CTHS : « Histoires d’eau »

150^e congrès du CTHS : « Histoires d’eau »