Planned intervention: On Wednesday June 26th 05:30 UTC Zenodo will be unavailable for 10-20 minutes to perform a storage cluster upgrade.
Published January 9, 2020 | Version v1
Thesis Open

L'information dans la correspondance des représentants diplomatiques français pendant la crise austro-prussienne de 1866: Analyse des données textuelles d'un corpus de dépêches

Creators

  • 1. École nationale des chartes

Contributors

  • 1. École pratique des hautes études
  • 2. École nationale des chartes

Description

Résumé

L'étude porte sur la correspondance de représentants diplomatiques français en 1866, année de la défaite autrichienne de Sadowa, moment décisif de la guerre qui oppose la Prusse et l'Autriche pour l'hégémonie dans la Confédération et les territoires germaniques.


L'extraction d'une série de documents diplomatiques déjà numérisés et océrisés par Gallica, la bibliothèque numérique de la BNF, a permis de structurer un corpus de plus d'un millier de dépêches. Grâce à des méthodes et outils d'analyses de données textuelles il a été possible d'explorer et exploiter ces archives sous plusieurs angles : comparaison des styles des ambassadeurs, visualisation d'égo-réseaux à partir de noms cités dans les lettres et télégrammes et enfin classification de thèmes lexicaux de la correspondance par la méthode Reinert.

Les résultats, étayés par de nombreux retours aux textes, ont mis en perspective la place des sources dans la construction de l'information et dans les différentes relations entre les acteurs de la sphère diplomatique.

Contenu du dépôt

1. memoire_HN_M2_LucNakache_corr.pdf : texte du mémoire

2. data_and_scripts.zip : annexes numériques

Description des annexes numériques

1) Constitution du corpus:

Les scripts 1 à 4 récupèrent les données à partir des données Gallica.
Les scripts 5 à 10 nettoient et structurent le corpus.
 
Le dossier nbp (notes de bas de pages) contient des fichiers des tomes 8 à 12  
dans lesquels les paragraphes ont été cochés manuellement comme paragraphe avec nbp ou pas.
 
Le dossier environnement contient les environnements enregistrés au fur et à mesure de l'exécution
des scripts, l'environnement Rdepdipfr contient le dataframe final (df_depdipfr)  
à partir duquel les analyses ont été réalisées.
 
2) Description
 
Les scripts permettent de construire le tableau descriptif ainsi que les histogrammes
le dossier fichiers_textes contient un fichier utilisé pour construire le tableau, et deux
fichiers de sortie
 
3) Stylométrie
 
script de l'analyse.
le dossier mots contient deux csv mots et mots2; mots contient les 200 mots les plus fréquents;
ils ont été manuellement cochées comme mots-outils ou mots de contenu dans mots2
 
4) reseau benedetti-gramont
Les scripts réalisent le graphe d'entités nommées
a_importer: Les notices biographiques des tomes 1 à 12 ont été parsées puis nettoyées pour ne conserver  
que les noms des personnes citées
a_exporter: le dossier contient un tableau d'étude du nombre erreur optimum pour le matching
 
 
5) iramuteq
Le script prepa_iramuteq créée les fichiers txt et le fichier metadata et les enregistre dans
le dossier corpus txm
les données ont été importées depuis txm dans Iramuteq, le dossier corpus iramuteq contient les  
résultats de l'analyse
le script retourtexte permet d'afficher le texte d'une dépêche sélectionnée

Files

data_and_scripts.zip

Files (73.0 MB)

Name Size Download all
md5:5ff497ad67c8b88c8f071966b55f0fc2
70.5 MB Preview Download
md5:98c35f947320afc1f6a52de257d92c07
2.5 MB Preview Download