Published May 1, 2025 | Version v1
Dataset Open

COMETA : Corpus de l'occitan médiéval comparatif et annoté: Provence et Languedoc

  • 1. ROR icon University of Freiburg

Description

COMETA : Corpus de l'occitan médiéval comparatif et annoté: Provence et Languedoc

Citation:

Wiedner, Marinus (ed.) (2025): COMETA : Corpus de l’occitan médiéval comparatif et annoté: Provence et Languedoc. <https://zenodo.org/records/15300719>.

BibTex:

@misc{COMETA2025,
    editor = {Wiedner, Marinus},
    title = {COMETA : {C}orpus de l'occitan médiéval comparatif et annoté: {P}rovence et {L}anguedoc},
    date = {2025},
    shorttitle = {COMETA},
    url = {https://zenodo.org/records/15300719},
    urldate = {2025},
}

Ce corpus a été créé à l'aide d'un modèle de Transkribus, un outil de reconnaissance automatique de l’écriture manuscrite par une intelligence artificielle. J’ai développé un modèle de transcription automatique publiquement disponible, nommé « Old Occitan Handwriting » (Wiedner 2023 <https://readcoop.eu/de/modelle/old-occitan-handwriting/>), que j’ai utilisé pour la création de mon corpus. Ce modèle a été entraîné avec à peu près 190.000 tokens issus de 7 textes différents. Le taux d’erreur des caractères est de 2,6% sur l’ensemble d’apprentissage et de 3,51% sur l’ensemble de validation. Après la transcription automatique, j'ai revu et corrigé les textes manuellement.

Ce corpus est constitué de 8 textes écrits en Provence et 9 en Languedoc dont la plupart sont conservés à la Bibliothèque nationale de France (BnF) à Paris ou à la British Library (BL) à Londres. Les transcriptions sont disponibles en formats .pdf, .txt ainsi que les page xmls.

 

Le corpus est constitué des textes suivants:

Bibliothèque municipale de Carcassonne (BmC) : cote 34 : Le Roman de Flamenca.

Bibliothèque municipale de Toulouse (BmT) : cote 2884 : Las leys d’amors.

BnF, Arsenal 6355 : La Vida de Santa Enimia.

BnF, Français 1049 : Trepas du roy Robert de Sicile, comte de Provence ; Libre de vicis et de vertutz, rédaction A ; Barlam et Josaphas.

BnF, Français 2232 : Roman de Philomena (manuscrit P).

BnF, Français 13503 : La vie de sainte Douceline.

BnF, Français 13504 : Vie de saint Elzéar ; Traduction d’une vision de Marguerite d’Oingt ; Vie de Sainte Delphine.

BnF, Français 13509 : Vida de sant Honorat (manuscrit R) ; Fragment de sermon, en occitan ; Début d’une prétendue Lettre de Jesus Crist.

BnF, Français 25425 : Chanson de la Croisade contre les Albigeois.

BnF, Latin 901 : Version occitane des Plaintes de la Vierge.

BnF, NAF 6195 : La vida de sant Honorat (manuscrit M).

BnF, NAF 11151 : Les sentences arbitrales entre l’abbé de Saint-Géraud et les consuls de cette ville (1280 et 1298) ; traduction occitane de la Mulomedicina ; la recepta del vi.

BnF, NAF 11180 : Planh de la Vierge.

British Library, Additional 10323 : La vida de sant Honorat (manuscrit O).

British Library, Additional 21218 : Roman de Philomena (manuscrit B).

British Library, Harley 3041 : Tenson entre Aicart et Girard.

British Library, Harley 7403 : Traduction occitane de l’Évangile de Nicodème ; traduction occitane (version B) du poème français sur les quinze signes de la fin du monde : Los XV signes que veno ; traduction occitane de la légende du bois de la Croix ; traité de diététique en occitan ; le repentir du pécheur ; doctrinal.

Comme il s’agit de mon propre corpus, il convient de mentionner les principales conventions de transcription. La segmentation des mots s’est faite en référence au Dictionnaire de l’occitan medieval en ligne (DOMél <https://dom-en-ligne.de/>), les mots en scriptura continua ont alors été séparés. Je n’ai pourtant pas inséré d'apostrophes, par ex. <lost> est transcrit comme <l ost>. Toutes les voyelles ont été gardées telles quelles, sauf le <u> qui a été changé en <v> selon des critères phonologiques : <una> reste <una> tandis que <chaualier> a été changé en <chavalier>. En dehors de cela, j’ai résolu les abréviations.

 

L'annotation en partie de discours est faite selon le standard UD (<https://universaldependencies.org/>). Jusqu'au moment, l'annotation de 4 textes a été corrigée manuellement. Ces textes sont intitulés avec -verifié.xslx. 

Tous les autres textes sont pré-annotés à l'aide de COLaF <https://colaf.huma-num.fr/deucalion/occ-cont> et disponibles en format .xslx.

Files

Additional_10323.pdf

Files (2.0 GB)

Name Size Download all
md5:0df9befd9b47ff86166200f0fef35f83
122.0 MB Preview Download
md5:895a1a4dc52d01870e7e92e52ec2d57c
273.7 kB Preview Download
md5:00f95e5c548447f78eabb0c267bf39f3
797.4 kB Download
md5:bf0ad8ac88757c356fb049c2293cceab
157.8 MB Preview Download
md5:99a11208048286468713969e59ca4b79
165.8 kB Preview Download
md5:4d7898bcb16e8fb191505c18d3fb8b77
501.8 kB Download
md5:a6d63c6a2f30603494b3e8507eb376f6
67.6 MB Preview Download
md5:593ad0c05a157a4ff7569baa6fb1cf7e
55.0 kB Preview Download
md5:332b80acc8cd75336eae2b91372ce00b
173.2 kB Download
md5:2391e61fc2b77f6711cacc88bdd429e2
163.6 MB Preview Download
md5:e2b45e3da69371a647d6ac6a5764abe3
225.6 kB Preview Download
md5:0c22bee7c4b24e3e0623ed31d001692d
666.1 kB Download
md5:2ed8214fbfe524412a595419260639d9
271.3 MB Preview Download
md5:7423b3d5f0705d75a1fbdce53bad6212
686.8 kB Preview Download
md5:c84a17d82c908adab6bc98ca59dd0cfe
1.9 MB Download
md5:baec1f6e4355f388633c31be0a89f9e3
243.9 MB Preview Download
md5:fb03fd17ac0481a585847bcb34c82915
676.5 kB Preview Download
md5:8c2b569f1643d0edab62a54abe908cc8
1.9 MB Download
md5:4205068d58e53bf74f78f57c0594f1be
63.6 MB Preview Download
md5:9bf4d6e3143a62bdaafee39456b70425
192.3 kB Preview Download
md5:633d3d1cfae6a4931cd16575abf34b6e
534.2 kB Download
md5:3461148ccb7af7785d271aa3b2db0276
53.6 MB Preview Download
md5:a89e4eed8a1afe92a0783f127bc652a6
191.7 kB Preview Download
md5:f8e7292bd92b265e8692814f813ee720
518.4 kB Download
md5:510c69fc7bc7f92a28fcc03e1d229e66
101.1 MB Preview Download
md5:9ff592402285dedf687ff59905d63fe2
323.0 kB Preview Download
md5:e1dbe717efe4e6987ca196d798ae4ab3
923.3 kB Download
md5:e09db400baa04bd885fed9a275eb5427
190.6 MB Preview Download
md5:dc6ee4f419d0438e52598fff59b1d252
179.6 kB Preview Download
md5:6d3d3c9ad4c841bc773f49234d4f665a
516.2 kB Download
md5:b16561a085973214c11cf14d5584e855
143.1 MB Preview Download
md5:26b92d000ed70759d2aa46346c0a5f7d
419.9 kB Preview Download
md5:5299cebefb01323ef91aff1db31c59a3
1.3 MB Download
md5:203529faf9a1836728efbe917c89b716
24.3 kB Download
md5:42b58b7171d77ad49647dafef1f0e5d2
1.1 MB Preview Download
md5:0aae6e248a32b0e39fc74a26603a2f21
2.1 kB Preview Download
md5:ab935e455fb363815d62c02149a065d2
353.4 kB Download
md5:87899783a9a9cf19bf3214447a381147
182.1 MB Preview Download
md5:e6afeb5079a0118b730255bdc6ae3a0e
114.1 kB Preview Download
md5:e08b1c01cc13036ac1bfd0c8cd7a3f2d
33.6 kB Download
md5:596fd202fd728d781ee56c1685312152
2.1 MB Preview Download
md5:f3471f35da840944aa1f96b9b9642316
5.5 kB Preview Download
md5:0fe5a02785ddd99bfab801508b0ff4c1
63.5 MB Preview Download
md5:f08f2a22cd2c3e54293f91b55fbf2a08
106.2 kB Preview Download
md5:7f024776e2d5d7fc64650a2e525cf22d
306.8 kB Download
md5:23c73979075209617494ac7385f16ad9
48.5 MB Preview Download
md5:053715f7a86ae0183dbfa07929ce9669
22.6 kB Preview Download
md5:d4ec983d18d86fa14ab3846c85af0534
81.6 kB Download
md5:b67b4c11567781985b74bd09075c954a
678.1 kB Download
md5:982f6c191846edd6e01995a1b0a58805
68.1 MB Preview Download
md5:45e750170abcb5ba122a8b774d85a1dd
226.6 kB Preview Download
md5:baa078dede6d51abc813bf5a65e514a4
32.7 MB Preview Download