COMETA : Corpus de l'occitan médiéval comparatif et annoté: Provence et Languedoc
Description
COMETA : Corpus de l'occitan médiéval comparatif et annoté: Provence et Languedoc
Citation:
Wiedner, Marinus (ed.) (2025): COMETA : Corpus de l’occitan médiéval comparatif et annoté: Provence et Languedoc. <https://zenodo.org/records/15300719>.
BibTex:
@misc{COMETA2025,
editor = {Wiedner, Marinus},
title = {COMETA : {C}orpus de l'occitan médiéval comparatif et annoté: {P}rovence et {L}anguedoc},
date = {2025},
shorttitle = {COMETA},
url = {https://zenodo.org/records/15300719},
urldate = {2025},
}
Ce corpus a été créé à l'aide d'un modèle de Transkribus, un outil de reconnaissance automatique de l’écriture manuscrite par une intelligence artificielle. J’ai développé un modèle de transcription automatique publiquement disponible, nommé « Old Occitan Handwriting » (Wiedner 2023 <https://readcoop.eu/de/modelle/old-occitan-handwriting/>), que j’ai utilisé pour la création de mon corpus. Ce modèle a été entraîné avec à peu près 190.000 tokens issus de 7 textes différents. Le taux d’erreur des caractères est de 2,6% sur l’ensemble d’apprentissage et de 3,51% sur l’ensemble de validation. Après la transcription automatique, j'ai revu et corrigé les textes manuellement.
Ce corpus est constitué de 8 textes écrits en Provence et 9 en Languedoc dont la plupart sont conservés à la Bibliothèque nationale de France (BnF) à Paris ou à la British Library (BL) à Londres. Les transcriptions sont disponibles en formats .pdf, .txt ainsi que les page xmls.
Le corpus est constitué des textes suivants:
Bibliothèque municipale de Carcassonne (BmC) : cote 34 : Le Roman de Flamenca.
Bibliothèque municipale de Toulouse (BmT) : cote 2884 : Las leys d’amors.
BnF, Arsenal 6355 : La Vida de Santa Enimia.
BnF, Français 1049 : Trepas du roy Robert de Sicile, comte de Provence ; Libre de vicis et de vertutz, rédaction A ; Barlam et Josaphas.
BnF, Français 2232 : Roman de Philomena (manuscrit P).
BnF, Français 13503 : La vie de sainte Douceline.
BnF, Français 13504 : Vie de saint Elzéar ; Traduction d’une vision de Marguerite d’Oingt ; Vie de Sainte Delphine.
BnF, Français 13509 : Vida de sant Honorat (manuscrit R) ; Fragment de sermon, en occitan ; Début d’une prétendue Lettre de Jesus Crist.
BnF, Français 25425 : Chanson de la Croisade contre les Albigeois.
BnF, Latin 901 : Version occitane des Plaintes de la Vierge.
BnF, NAF 6195 : La vida de sant Honorat (manuscrit M).
BnF, NAF 11151 : Les sentences arbitrales entre l’abbé de Saint-Géraud et les consuls de cette ville (1280 et 1298) ; traduction occitane de la Mulomedicina ; la recepta del vi.
BnF, NAF 11180 : Planh de la Vierge.
British Library, Additional 10323 : La vida de sant Honorat (manuscrit O).
British Library, Additional 21218 : Roman de Philomena (manuscrit B).
British Library, Harley 3041 : Tenson entre Aicart et Girard.
British Library, Harley 7403 : Traduction occitane de l’Évangile de Nicodème ; traduction occitane (version B) du poème français sur les quinze signes de la fin du monde : Los XV signes que veno ; traduction occitane de la légende du bois de la Croix ; traité de diététique en occitan ; le repentir du pécheur ; doctrinal.
Comme il s’agit de mon propre corpus, il convient de mentionner les principales conventions de transcription. La segmentation des mots s’est faite en référence au Dictionnaire de l’occitan medieval en ligne (DOMél <https://dom-en-ligne.de/>), les mots en scriptura continua ont alors été séparés. Je n’ai pourtant pas inséré d'apostrophes, par ex. <lost> est transcrit comme <l ost>. Toutes les voyelles ont été gardées telles quelles, sauf le <u> qui a été changé en <v> selon des critères phonologiques : <una> reste <una> tandis que <chaualier> a été changé en <chavalier>. En dehors de cela, j’ai résolu les abréviations.
L'annotation en partie de discours est faite selon le standard UD (<https://universaldependencies.org/>). Jusqu'au moment, l'annotation de 4 textes a été corrigée manuellement. Ces textes sont intitulés avec -verifié.xslx.
Tous les autres textes sont pré-annotés à l'aide de COLaF <https://colaf.huma-num.fr/deucalion/occ-cont> et disponibles en format .xslx.
Files
Additional_10323.pdf
Files
(2.0 GB)
| Name | Size | Download all |
|---|---|---|
|
md5:0df9befd9b47ff86166200f0fef35f83
|
122.0 MB | Preview Download |
|
md5:895a1a4dc52d01870e7e92e52ec2d57c
|
273.7 kB | Preview Download |
|
md5:00f95e5c548447f78eabb0c267bf39f3
|
797.4 kB | Download |
|
md5:bf0ad8ac88757c356fb049c2293cceab
|
157.8 MB | Preview Download |
|
md5:99a11208048286468713969e59ca4b79
|
165.8 kB | Preview Download |
|
md5:4d7898bcb16e8fb191505c18d3fb8b77
|
501.8 kB | Download |
|
md5:a6d63c6a2f30603494b3e8507eb376f6
|
67.6 MB | Preview Download |
|
md5:593ad0c05a157a4ff7569baa6fb1cf7e
|
55.0 kB | Preview Download |
|
md5:332b80acc8cd75336eae2b91372ce00b
|
173.2 kB | Download |
|
md5:2391e61fc2b77f6711cacc88bdd429e2
|
163.6 MB | Preview Download |
|
md5:e2b45e3da69371a647d6ac6a5764abe3
|
225.6 kB | Preview Download |
|
md5:0c22bee7c4b24e3e0623ed31d001692d
|
666.1 kB | Download |
|
md5:2ed8214fbfe524412a595419260639d9
|
271.3 MB | Preview Download |
|
md5:7423b3d5f0705d75a1fbdce53bad6212
|
686.8 kB | Preview Download |
|
md5:c84a17d82c908adab6bc98ca59dd0cfe
|
1.9 MB | Download |
|
md5:baec1f6e4355f388633c31be0a89f9e3
|
243.9 MB | Preview Download |
|
md5:fb03fd17ac0481a585847bcb34c82915
|
676.5 kB | Preview Download |
|
md5:8c2b569f1643d0edab62a54abe908cc8
|
1.9 MB | Download |
|
md5:4205068d58e53bf74f78f57c0594f1be
|
63.6 MB | Preview Download |
|
md5:9bf4d6e3143a62bdaafee39456b70425
|
192.3 kB | Preview Download |
|
md5:633d3d1cfae6a4931cd16575abf34b6e
|
534.2 kB | Download |
|
md5:3461148ccb7af7785d271aa3b2db0276
|
53.6 MB | Preview Download |
|
md5:a89e4eed8a1afe92a0783f127bc652a6
|
191.7 kB | Preview Download |
|
md5:f8e7292bd92b265e8692814f813ee720
|
518.4 kB | Download |
|
md5:510c69fc7bc7f92a28fcc03e1d229e66
|
101.1 MB | Preview Download |
|
md5:9ff592402285dedf687ff59905d63fe2
|
323.0 kB | Preview Download |
|
md5:e1dbe717efe4e6987ca196d798ae4ab3
|
923.3 kB | Download |
|
md5:e09db400baa04bd885fed9a275eb5427
|
190.6 MB | Preview Download |
|
md5:dc6ee4f419d0438e52598fff59b1d252
|
179.6 kB | Preview Download |
|
md5:6d3d3c9ad4c841bc773f49234d4f665a
|
516.2 kB | Download |
|
md5:b16561a085973214c11cf14d5584e855
|
143.1 MB | Preview Download |
|
md5:26b92d000ed70759d2aa46346c0a5f7d
|
419.9 kB | Preview Download |
|
md5:5299cebefb01323ef91aff1db31c59a3
|
1.3 MB | Download |
|
md5:203529faf9a1836728efbe917c89b716
|
24.3 kB | Download |
|
md5:42b58b7171d77ad49647dafef1f0e5d2
|
1.1 MB | Preview Download |
|
md5:0aae6e248a32b0e39fc74a26603a2f21
|
2.1 kB | Preview Download |
|
md5:ab935e455fb363815d62c02149a065d2
|
353.4 kB | Download |
|
md5:87899783a9a9cf19bf3214447a381147
|
182.1 MB | Preview Download |
|
md5:e6afeb5079a0118b730255bdc6ae3a0e
|
114.1 kB | Preview Download |
|
md5:e08b1c01cc13036ac1bfd0c8cd7a3f2d
|
33.6 kB | Download |
|
md5:596fd202fd728d781ee56c1685312152
|
2.1 MB | Preview Download |
|
md5:f3471f35da840944aa1f96b9b9642316
|
5.5 kB | Preview Download |
|
md5:0fe5a02785ddd99bfab801508b0ff4c1
|
63.5 MB | Preview Download |
|
md5:f08f2a22cd2c3e54293f91b55fbf2a08
|
106.2 kB | Preview Download |
|
md5:7f024776e2d5d7fc64650a2e525cf22d
|
306.8 kB | Download |
|
md5:23c73979075209617494ac7385f16ad9
|
48.5 MB | Preview Download |
|
md5:053715f7a86ae0183dbfa07929ce9669
|
22.6 kB | Preview Download |
|
md5:d4ec983d18d86fa14ab3846c85af0534
|
81.6 kB | Download |
|
md5:b67b4c11567781985b74bd09075c954a
|
678.1 kB | Download |
|
md5:982f6c191846edd6e01995a1b0a58805
|
68.1 MB | Preview Download |
|
md5:45e750170abcb5ba122a8b774d85a1dd
|
226.6 kB | Preview Download |
|
md5:baa078dede6d51abc813bf5a65e514a4
|
32.7 MB | Preview Download |