• Congrès : XXXe Congrès International de Linguistique et de Philologie Romanes (2022-07-04 - 2022-07-09)
  • Directeur(s) : Société de linguistique romane
  • Pages : 1001-1012

Résumé

L’article présente différents outils développés à l’École nationale des chartes-PSL (Paris) depuis 2015 pour le traitement automatique des états de langue non-standardisés et en particulier de l’ancien français. Progressivement a été constitué le corpus OF3C (Old French Corpus Collection of the École des chartes), balisé au moins en lemmes et en parties du discours, partiellement en morphologie. Ce corpus annoté, librement réutilisable, a servi à entraîner le modèle de lemmatisation Old French fonctionnant grâce à l’apprentissage profond. La présente contribution décrit l’environnement de lemmatisation proposé (outils et données), mais s’attache surtout à évaluer le modèle Old French à partir d’un corpus gold spécialement étiqueté pour ce faire. Les performances du modèle sont ainsi passées au crible et quelques pistes d’amélioration avancées.

Partager sur les réseaux sociaux

Publications de chercheur

Publications aux éditions de l’École

Sur les mêmes thématiques

Applications, éditions et jeux de données