Un modèle ouvert pour la reconnaissance automatique des manuscrits du théâtre espagnol du Siècle d’Or

Par Álvaro Cuéllar (University of Kentucky)

Le projet ETSO, Estilometría aplicada al Teatro del Siglo de Oro (Cuéllar et Vega García-Luengos 2017-2022) (https://etso.es/), se propose de collecter et d’analyser à travers des techniques stylométriques le plus grand nombre de pièces de théâtre espagnol du Siècle d’Or. Un nombre important de ces textes ne se retrouvent que dans des témoignages manuscrits, pour lesquels il a fallu entreprendre un processus de transcription automatique à l’aide de Transkribus. L’entraînement du modèle « Spanish Golden Age Manuscripts (Spelling Modernization) 1.0 » a nécessité 3 250 116 mots et il est capable de moderniser automatiquement le texte, en obtenant un Character Error Rate (CER) de 10,54 % dans le validation set. Grâce à ce modèle, nous avons pu transcrire quelque 400 manuscrits de pièces du Siècle d’Or. Parmi tous les textes, un a retenu l’attention : La francesa Laura. Cette pièce de théâtre anonyme a été alignée stylométriquement avec l’ensemble du corpus du dramaturge Lope de Vega (1562-1635)

Partager sur les réseaux sociaux

Sur les mêmes thématiques

Applications, éditions et jeux de données