Infrastructures pour corpus vivants : de l'OCR à l'édition collaborative des télégrammes de Vichy

Martin-Schreiber, Vincent; MATHIEU, Florian; Macarios, Jasmin

doi:10.5281/zenodo.20208522

Published May 14, 2026 | Version v2

Presentation Open

Infrastructures pour corpus vivants : de l'OCR à l'édition collaborative des télégrammes de Vichy

1. University of Ottawa

Les archives diplomatiques de Vichy conservées à Bibliothèque et Archives Canada représentent 13 848 pages de télégrammes interceptés et déchiffrés par l'Examination Unit canadienne entre 1941 et 1945. Bien que numérisées et accessibles via le protocole IIIF, ces communications demeurent difficilement exploitables pour la recherche historique : le format image empêche toute recherche par mots-clés, l'analyse de réseaux diplomatiques ou la fouille de textes. Comment passer du modèle unidirectionnel de l'édition numérique (institution → public) à un écosystème où chercheurs, citoyens et institutions co-construisent un corpus de données ? Ce projet vise à convertir des télégrammes statiques en laboratoire d'édition collaborative, modifiant ainsi la dynamique entre les différents acteurs à l'ère computationnelle.

Face à l'impossibilité d'une transcription manuelle intégrale (~2 300 heures), ce projet propose une infrastructure en trois couches transformant des archives statiques en édition collaborative évolutive. Une transcription à l'aide d'un modèle d'intelligence artifielle (IA) extrait automatiquement le texte du corpus. Cette base devient point de départ d'un processus collaboratif : l'IA facilite l'accès afin qu'une communauté puisse affiner les données.

Un pipeline automatisé extrait ensuite les métadonnées structurées de chaque télégramme : émetteurs, destinataires, dates, numéros de messages, signatures. Les taux de succès varient entre 80% (dates) et 95% (numéros). Cette transformation du texte brut en données structurées permet recherches par mots-clés, analyses de réseaux diplomatiques et visualisations temporelles.

La diffusion ouverte via Omeka Classic (recherche plein texte, métadonnées, IIIF) et l'archivage Zenodo pour le code et les données (DOI, CC BY 4.0) garantissent accessibilité maximale et préservation pérenne. Lorsqu'il sera activé, le module Scripto (plugin Omeka) transformera chaque utilisateur en contributeur potentiel. L'interface de ce plugin permet en effet de présenter côte-à-côte l'image originale et le texte transcrit à corriger, permettant validation visuelle immédiate. Les pages de discussion MediaWiki offrent un espace de débat pour cas ambigus (abréviations diplomatiques, lieux historiques). Le système de validation en étapes (transcription, révision, approbation) structure la gouvernance communautaire.

Cette infrastructure matérialise le concept de corpus vivant : conçu non comme objet statique mais comme processus dynamique, le corpus se métamorphose par transformations successives documentées (transcription → métadonnées → corrections). Au-delà de simples erreurs de transcription, l'enrichissement continu (annotations, tagging sémantique, contextualisation) constitue la production historiographique collective. Le versionnement sur Zenodo documente cette évolution qualitative, permettant de transformer l'anima traditionnellement individuelle du corpus en intelligence collective traçable, où chaque intervention modifie progressivement les archives en ressource scientifique évolutive et reproductible.

Ce dispositif transforme l'édition numérique d'un processus unidirectionnel (institution → public) en écosystème participatif bidirectionnel. Il matérialise un triple dialogue : entre l'extraction automatisée initiale et l'expertise humaine distribuée, entre les images d'archives et leur interprétation textuelle, et entre les membres d'une communauté de recherche qui négocient collectivement le sens des documents. L'expertise nécessaire pour ces télégrammes diplomatiques est naturellement distribuée : historiens, spécialistes des relations internationales, linguistes du français des années 1940, archivistes familiers des conventions documentaires.

Files

slides_presentation.pdf

Files (11.0 MB)

Name	Size	Download all
slides_presentation.pdf md5:1547bec8375355093fa0694769be0b77	11.0 MB	Preview Download

	All versions	This version
Views	24	0
Downloads	7	0
Data volume	49 Bytes	0 Bytes

Infrastructures pour corpus vivants : de l'OCR à l'édition collaborative des télégrammes de Vichy

Authors/Creators

Description

Files

slides_presentation.pdf

Files (11.0 MB)