Published April 15, 2021 | Version v1
Conference paper Open

Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

  • 1. Multimedia University, Kenya and L3i, Université de La Rochelle, France
  • 2. L3i, Université de La Rochelle, France
  • 3. Sorbonne Université, France
  • 4. Innsbruck Universität, Autriche
  • 5. Multimedia University, Kenya

Description

Dans cet article, nous abordons la tâche de classification multilingue de textes dans le domaine épidémiologique. Nous comparons différents modèles d'apprentissage automatique et d'apprentissage profond à l'aide d'un jeu de données multilingue comprenant des articles de presse en six langues. Notre objectif est d'analyser l'influence de la famille de langue, de la structure du document et de la taille des données sur les résultats de classification. Nos résultats indiquent que les performances des modèles basés sur des modèles linguistiques dépassent de plus de 50% les baselines, parmi lesquelles un système spécialisé de surveillance épidémiologique et plusieurs modèles d'apprentissage automatique.

Files

CORIA2021-Classification-des-textes-epidemiologiques-multilingues.pdf

Files (148.2 kB)

Additional details

Funding

NewsEye – NewsEye: A Digital Investigator for Historical Newspapers 770299
European Commission
EMBEDDIA – Cross-Lingual Embeddings for Less-Represented Languages in European News Media 825153
European Commission