- Congrès : XXXe Congrès International de Linguistique et de Philologie Romanes (2022-07-04 - 2022-07-09)
- Directeur(s) : Société de linguistique romane
- Pages : 1001-1012
Résumé
L’article présente différents outils développés à l’École nationale des chartes-PSL (Paris) depuis 2015 pour le traitement automatique des états de langue non-standardisés et en particulier de l’ancien français. Progressivement a été constitué le corpus OF3C (Old French Corpus Collection of the École des chartes), balisé au moins en lemmes et en parties du discours, partiellement en morphologie. Ce corpus annoté, librement réutilisable, a servi à entraîner le modèle de lemmatisation Old French fonctionnant grâce à l’apprentissage profond. La présente contribution décrit l’environnement de lemmatisation proposé (outils et données), mais s’attache surtout à évaluer le modèle Old French à partir d’un corpus gold spécialement étiqueté pour ce faire. Les performances du modèle sont ainsi passées au crible et quelques pistes d’amélioration avancées.
Partager sur les réseaux sociaux
Publications de chercheur
Publication de chercheur
CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts
Communication dans un congrès
- Date de parution : 2024
Publication de chercheur
Layout Analysis Dataset with SegmOnto
Communication dans un congrès
- Date de parution : 2024
Publication de chercheur
Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts
Communication dans un congrès Nouveau
- Date de parution : 2024