Published December 19, 2024 | Version v1
Presentation Open

Visualisation et exploration de grands corpus à partir de projections multidimensionnelles

  • 1. Inria
  • 2. ROR icon Université Paris-Saclay

Description

Depuis une dizaine d'années, les algorithmes d'apprentissage automatique permettent de visualiser des corpus textuels de grande taille selon la similarité des concepts entre documents. Deux documents similaires sont plus proches sur l'écran que de deux document moins similaires. À partir de cette règle simple, il est possible d'explorer de large corpus documentaires, à condition d'y ajouter quelques améliorations. Je décrirai l'évolution des techniques d'apprentissage statistique qui permettent de comparer le contenu sémantique des documents, les avancées en interaction et en visualisation permettant leur représentation à l'écran, et les avancées permettant de naviguer dans ces nouveaux espaces documentaires avec des indications sur les domaines thématiques par zone.

En mettant bout à bout toutes ces technique, on arrive à une cartographie documentaire très semblable à des cartes topographiques qu'il faut apprendre à lire pour éviter certains écueils que je décrirai aussi (les artefacts topologiques liés aux projections). Je montrerai nos résultats avec le site cartolabe.fr entre autres. Avec un peu d'habitude, il est maintenant possible d'explorer de large corpus documentaires avec un cartographie thématique automatiquement calculée.

La présentation a été réalisée lors du webinaire proposé par le GTSO Données de Couperin le mardi 17 décembre 2024. 

https://gtsodataweb10.sciencesconf.org/ 

Files

Visualisation et exploration de grands corpus à partir de projections multidimensionnelles 2024 Fekete.pdf

Additional details

Dates

Available
2024-12-17