Don't worry, it's just noise": quantifying the impact of files treated as single textual units when they are really collections

Congrès : Workshop on Natural Language Processing for Digital Humanities (NLP4DH) (2021-12-19)
Directeur(s) : NLP Association of India (NLPAI)
Pages : 95-105

Consulter la fiche HAL

Résumé

Literature works may present many autonomous or semi-autonomous units, such as poems for the first or chapter for the second. We make the hypothesis that such cuts in the text's flow, if not taken care of in the way we process text, have an impact on the application of the distributional hypothesis. We test this hypothesis with a large 20M tokens corpus of Latin works, by using text files as a single unit or multiple "autonomous" units for the analysis of selected words. For groups of rare words and words specific to heavily segmented works, the results show that their semantic space is mostly different between both versions of the corpus. For the 1000 most frequent words of the corpus, variations are important as soon as the window for defining neighborhood is larger or equal to 10 words.

Partager sur les réseaux sociaux

Publications de chercheur

Voir la liste complète

Publication de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Communication dans un congrès
- Ariane Pinche,
  Thibault Clérice,
  Jean-Baptiste Camps,
  Malamatenia Vlachou-Efstathiou,
  Matthias Gille Levenson,
  Olivier Brisville-Fertin,
  Federico Boschetti,
  Franz Fischer,
  Michael Gervers,
  Agnès Boutreux,
  Avery Manton,
  Simon Gabay,
  Wouter Haverals,
  Mike Kestemont,
  Caroline Vandyck,
  Patricia O'Connor,
  Alix Chagué
- Date de parution : 2024
Publication de chercheur

Layout Analysis Dataset with SegmOnto

Communication dans un congrès
- Thibault Clérice,
  Juliette Janes,
  Hugo Scheithauer,
  Sarah Bénière,
  Laurent Romary,
  Benoît Sagot
- Date de parution : 2024
Publication de chercheur

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Communication dans un congrès Nouveau
- Thibault Clérice
- Date de parution : 2024

Publications aux éditions de l’École

Voir la liste complète

Publication de l'École

La véridique histoire de l’arobase
- Marc H. Smith
Publication de l'École

L’Ordinaire mestre Tancré
- Frédéric Duval
Publication de l'École

Le malheur d’être femme
- Pascale Bourgain
Publication de l'École

Abécédaire insolite du livre ancien
- Christine Bénévent
Publication de l'École

La bibliothèque de Thou et ses catalogues
- Valérie Neveu
Publication de l'École

Positions des thèses 2023
- Promotion 2023
Publication de l'École

Des archives considérées comme une substance hallucinogène
- Michel Melot
Publication de l'École

L’historien face à l’animal
- Michel Pastoureau
Voir la liste complète

Sur les mêmes thématiques

Voir la liste complète

Applications, éditions et jeux de données

Voir la liste complète

Applications, éditions et jeux de données

e-NDP. Notre-Dame de Paris et son cloître

Production
- Édition de texte,
  Traitement automatique de la langue
- Porté par le CJM
Applications, éditions et jeux de données

Adele

Production
- Édition de texte,
  Images
- Porté par le CJM
Applications, éditions et jeux de données

DicoTopo

Production
- Porté par le CJM

Don't worry, it's just noise": quantifying the impact of files treated as single textual units when they are really collections

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Layout Analysis Dataset with SegmOnto

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

Représenter l'Algérie. Images et conquête au XIX^e siècle

Roi-Soleil et Dieu. Essai sur la religion de Louis XIV

Une « dissimulation profonde » : l’insondable duc de Marlborough

Où va l’État « à la française » ?

Applications, éditions et jeux de données

e-NDP. Notre-Dame de Paris et son cloître

Adele

DicoTopo

Don't worry, it's just noise": quantifying the impact of files treated as single textual units when they are really collections

Résumé

Partager sur les réseaux sociaux

Publications de chercheur

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Layout Analysis Dataset with SegmOnto

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Publications aux éditions de l’École

La véridique histoire de l’arobase

L’Ordinaire mestre Tancré

Le malheur d’être femme

Abécédaire insolite du livre ancien

La bibliothèque de Thou et ses catalogues

Positions des thèses 2023

Des archives considérées comme une substance hallucinogène

L’historien face à l’animal

Sur les mêmes thématiques

Représenter l'Algérie. Images et conquête au XIXe siècle

Roi-Soleil et Dieu. Essai sur la religion de Louis XIV

Une « dissimulation profonde » : l’insondable duc de Marlborough

Où va l’État « à la française » ?

Applications, éditions et jeux de données

e-NDP. Notre-Dame de Paris et son cloître

Adele

DicoTopo

Représenter l'Algérie. Images et conquête au XIX^e siècle