Des chercheurs et des étudiants de l'École présentent leur travaux lors la conférence internationale LREC 2026 (Language Resources and Evaluation Conference), référence mondiale des technologies du langage.

Lundi 11 mai 2026 - Samedi 16 mai 2026

  • Palma de Majorque (Espagne)

Programme

La reconnaissance de caractères chinois anciens

11 mai, dans le cadre du workshop sur les technologies linguistiques pour les langues historiques et anciennes (LT4HALA)

Une équipe d’étudiants du master « Humanités numériques », lauréate de la compétition internationale EvaHan 2026 sur la reconnaissance automatique de textes issus de sources manuscrites en chinois (Handwritten Text Recognition (HTR)), présente ses travaux dans une communication intitulée « Building Character(s): Synthetic Data and In-Context Learning Strategies for Few-Shot Ancient Chinese Recognition ».

En savoir plus

Édition numérique de la Patrologia Graeca

14 mai, dans le cadre du MainTrack de la conférence

Intervention de Chahan Vidal-Gorène, responsable pédagogique du master « Humanités numériques », avec Bastien Kindt (UCLouvain), intitulée « The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions ».

Les deux chercheurs présentent leur publication numérique d’un corpus de près de 6 millions de mots en grec ancien, construit automatiquement avec le développement de modèles IA (depuis 2020) à partir d’éditions imprimés de la Patrologia Graeca, collection majeure de textes antiques et médiévaux en langue grecque contenant les écrits des Pères de l'Église et d’autres auteurs ecclésiastiques, publiée par Jacques-Paul Migne entre 1857 et 1866.

Accéder au dépôt de données

Il s'agit d’une des plus importantes créations entièrement automatisée (par IA) de données en grec ancien, rassemblant une importante collection de textes de la Patrologia Graeca jamais numérisés par ailleurs. Ces données complètent ainsi les bases de données philologiques actuelles, et notamment le Thesaurus Linguae Graecae, en produisant un corpus open source qui pourra servir à l’entraînement de modèles d’IA de cette langue.

Consulter le prépublication

Les grands modèles de langue : de nouveaux alliés pour l’étude des langues rares et anciennes

16 mai

Chahan Vidal-Gorène, Florian Cafiero (EPITA, Centre Jean-Mabillon) et Bastien Kindt (UCLouvain) présente un tutoriel intitulé « Under-Resourced Studies of Under-Resourced Languages: Practical, Reproducible LLM-as-Annotator Pipelines Across Scripts and Domains ».

Cette formation expliquera comment utiliser les LLM grand public (ChatGPT, Mistral...) pour annoter les langues rares et anciennes, ou pour documenter du patrimoine.

Consulter le tutoriel
Image décorative générée avec ChatGPT

Image générée avec ChatGPT

Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts

13 mai

Carolina Macedo, ingénieure Biblissima+ à l'École, présentera avec Lucence Ing (Inria) et Matthias Giles Levenson (ENS Lyon) un poster intitulé « Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts ».

Intervenant(s)

    Partager sur les réseaux sociaux

    À venir