FENEC : a balanced sample corpus for French named entity recognition - Archive ouverte HAL Access content directly
Conference Papers Year :

FENEC : a balanced sample corpus for French named entity recognition

FENEC : un corpus à échantillons équilibrés pour l'évaluation des entités nommées en français

(1) , (2) , (3) , (4, 3)
1
2
3
4
Alice Millour
  • Function : Author
  • PersonId : 1135497
Yoann Dupont
Alexane Jouglar
  • Function : Author
  • PersonId : 1135499

Abstract

We present FENEC (FrEnch Named-entity Evaluation Corpus), a balanced sample corpus containing six genres and annotated with named entities according to Quæro, a rich annotation scheme. The characteristics of this corpus allow us to evaluate and compare three automatic annotation tools—one rule-based and two neural network-based—by playing on three dimensions of the evaluation: the precision of the label set, the genre of the corpora, and the evaluation metrics.
Nous présentons ici FENEC (FrEnch Named-entity Evaluation Corpus), un corpus à échantillons équilibrés contenant six genres, annoté en entités nommées selon le schéma fin Quaero. Les caractéristiques de ce corpus nous permettent d'évaluer et de comparer trois outils d'annotation automatique-un à base de règles et deux à base de réseaux de neurones-en jouant sur trois dimensions : la finesse du jeu d'étiquettes, le genre des corpus, et les métriques d'évaluation.
Fichier principal
Vignette du fichier
TALN_2022_EN_VF.pdf (521.11 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-03680569 , version 1 (28-05-2022)

Identifiers

  • HAL Id : hal-03680569 , version 1

Cite

Alice Millour, Yoann Dupont, Alexane Jouglar, Karën Fort. FENEC : un corpus à échantillons équilibrés pour l'évaluation des entités nommées en français. Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03680569⟩
204 View
75 Download

Share

Gmail Facebook Twitter LinkedIn More