Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Congrès : Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (2024-05-20 - 2024-05-25)
Directeur(s) : ELRA Language Resources Association (ELRA)

Consulter la fiche HAL

Résumé

In this study, we propose to evaluate the use of deep learning methods for semantic classification at the sentence level to accelerate the process of corpus building in the field of humanities and linguistics, a traditional and time-consuming task. We introduce a novel corpus comprising around 2500 sentences spanning from 300 BCE to 900 CE including sexual semantics (medical, erotica, etc.). We evaluate various sentence classification approaches and different input embedding layers, and show that all consistently outperform simple token-based searches. We explore the integration of idiolectal and sociolectal metadata embeddings (centuries, author, type of writing), but find that it leads to overfitting. Our results demonstrate the effectiveness of this approach, achieving high precision and true positive rates (TPR) of respectively 70.60% and 86.33% using HAN. We evaluate the impact of the dataset size on the model performances (420 instead of 2013), and show that, while our models perform worse, they still offer a high enough precision and TPR, even without MLM, respectively 69% and 51%. Given the result, we provide an analysis of the attention mechanism as a supporting added value for humanists in order to produce more data.

Partager sur les réseaux sociaux

Publications de chercheur

Voir la liste complète

Publication de chercheur

Layout Analysis Dataset with SegmOnto

Communication dans un congrès
- Thibault Clérice,
  Juliette Janes,
  Hugo Scheithauer,
  Sarah Bénière,
  Laurent Romary,
  Benoît Sagot
- Date de parution : 2024
Publication de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Communication dans un congrès
- Ariane Pinche,
  Thibault Clérice,
  Jean-Baptiste Camps,
  Malamatenia Vlachou-Efstathiou,
  Matthias Gille Levenson,
  Olivier Brisville-Fertin,
  Federico Boschetti,
  Franz Fischer,
  Michael Gervers,
  Agnès Boutreux,
  Avery Manton,
  Simon Gabay,
  Wouter Haverals,
  Mike Kestemont,
  Caroline Vandyck,
  Patricia O'Connor,
  Alix Chagué
- Date de parution : 2024
Publication de chercheur

Lire, diffuser et faire connaître les manuscrits anciens par l’imprimé

Article dans une revue Nouveau
- Rémi Mathis
- Date de parution : 2024

Publications aux éditions de l’École

Voir la liste complète

Publication de l'École

La véridique histoire de l’arobase
- Marc H. Smith
Publication de l'École

L’Ordinaire mestre Tancré
- Frédéric Duval
Publication de l'École

Le malheur d’être femme
- Pascale Bourgain
Publication de l'École

Abécédaire insolite du livre ancien
- Christine Bénévent
Publication de l'École

La bibliothèque de Thou et ses catalogues
- Valérie Neveu
Publication de l'École

Positions des thèses 2023
- Promotion 2023
Publication de l'École

Des archives considérées comme une substance hallucinogène
- Michel Melot
Publication de l'École

L’historien face à l’animal
- Michel Pastoureau
Voir la liste complète

Sur les mêmes thématiques

Voir la liste complète

Applications, éditions et jeux de données

Voir la liste complète

Applications, éditions et jeux de données

Thèses

Production
- Édition de texte
- Porté par le CJM
Applications, éditions et jeux de données

DicoTopo

Production
- Porté par le CJM
Applications, éditions et jeux de données

Elec

Production, dev, bêta
- Édition de texte
- Porté par le CJM

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

Layout Analysis Dataset with SegmOnto

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Lire, diffuser et faire connaître les manuscrits anciens par l’imprimé

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

L’archivage du courrier électronique

Marie-Reyne, d’esclave à libre

Marie-Antoinette : quelles sources pour le biographe ?

Femmes, informatique et numérique

Applications, éditions et jeux de données

Thèses

DicoTopo

Elec