CATMuS Medieval

Pinche, Ariane; Clérice, Thibault; Chagué, Alix; Camps, Jean-Baptiste; Vlachou-Efstathiou, Malamatenia; Gille Levenson, Matthias; Brisville-Fertin, Olivier; Boschetti, Federico; Fischer, Franz; Gervers, Michael; Boutreux, Agnès; Manton, Avery; Gabay, Simon

doi:10.5281/zenodo.10066219

Published November 2, 2023 | Version 1.0.0

Model Open

CATMuS Medieval

1. Histoire, Archéologie, Littératures des Mondes Chrétiens et Musulmans Médiévaux
2. Institut national de recherche en informatique et en automatique
3. École Nationale des Chartes
4. Institut de Recherche et d'Histoire des Textes
5. Centre Jean Mabillon
6. École Normale Supérieure de Lyon
7. Institute for Computational Linguistics "A. Zampolli"
8. Ca' Foscari University of Venice
9. University of Toronto
10. University of Geneva

Contributors

Data collectors:

Researchers:

1. Ca' Foscari University of Venice
2. rescribe.xyz
3. Centre Jean Mabillon
4. Università degli Studi di Sassari
5. École Nationale des Chartes
6. Institut national de recherche en informatique et en automatique
7. Histoire, Archéologie, Littératures des Mondes Chrétiens et Musulmans Médiévaux
8. Université Jean Moulin Lyon III
9. Université Lumière Lyon 2
10. Université de Genève
11. University of Geneva
12. Université Libre de Bruxelles

CATMuS (Consistent Approach to Transcribing ManuScript) Medieval is a Kraken HTR model trained on four different languages (in descending order of importance in the dataset: Old and Middle French, Latin, Spanish (and other languages of Spain), Italian) on strictly graphematic transcriptions. No abbreviations are resolved.

This model is the result of the collaboration from researchers from CREMMA, GalliCorpora, HTRomance and DEEDS projects. It follows the CREMMA Guidelines (Supplemented by the CREMMA Medii Aevi) and will be consolidated under the CATMuS Medieval Guidelines in an upcoming paper.

The model is trained with NFD Unicode normalization: each diacritic (including superscripts) are transcribed as their own characters, separately from the "main" character.

Metrics

3,361,410 characters
113,228 lines
1602 files (indifferently double pages or single pages)
7560 regions

All source datasets and papers are referenced in the related works section, all transcribers are mentioned in the collaborators section, all partner-project members are mentioned as authors.

Fundings

CREMMA, DIM MAP, Région Île-de-France
CremmaLab, DIM MAP, Région Île-de-France
GalliCorpora, Datalab, Bibliothèque nationale de France
HTRomance, Datalab, Bibliothèque nationale de France
Text as Image, Image as Text: Charter integrity and topic modelling, SSHRCC 1350911
Les Décades de Bersuire, première traduction française de l'Histoire romaine de Tite-Live – LiBer, ANR 21-CE27-0008
Projet Fabliaux, Biblissima+, ANR 21-ESRE-0005

Files

metadata.json

Files (22.9 MB)

Name	Size	Download all
CATMUS Medieval 1.0.0.mlmodel md5:11f45c4d63038bd5fd932e5df6c3ae7e	22.9 MB	Download
metadata.json md5:582c3ff89f880cc0c03de8fecb7ebaac	3.4 kB	Preview Download

Additional details

Continues: Model: 10.5281/zenodo.7234165 (DOI); Model: 10.5281/zenodo.5617782 (DOI)
Is derived from: Dataset: 10.5281/zenodo.7013436 (DOI); Dataset: https://github.com/rescribe/carolineminuscule-groundtruth (URL); Dataset: 10.5281/zenodo.5235185 (DOI); Dataset: 10.5281/zenodo.7013436 (DOI); Dataset: 10.5281/zenodo.7386489 (DOI); Dataset: 10.5281/zenodo.6126613 (DOI); Dataset: 10.5281/zenodo.6126376 (DOI); Dataset: https://github.com/Gallicorpora/HTR-imprime-gothique-16e-siecle (URL); Dataset: https://github.com/malamatenia/Eutyches (URL); Dataset: https://github.com/Gallicorpora/HTR-MSS-15e-Siecle (URL); Dataset: https://github.com/Gallicorpora/HTR-incunable-15e-siecle/ (URL); Dataset: https://github.com/CIHAM-HTR/Liber (URL); Dataset: 10.5281/zenodo.8256728 (DOI); Dataset: 10.5281/zenodo.8288817 (DOI); Dataset: 10.5281/zenodo.8405306 (DOI); Dataset: 10.5281/zenodo.8289064 (DOI); Dataset: https://github.com/DEEDS-Project/htr-dataset/ (URL)
Is documented by: Publication: https://hal.science/hal-03697382 (URL); Data paper: 10.5334/johd.97 (DOI)

Created: 2023-11-01

Ariane Pinche. Guide de transcription pour les manuscrits du Xe au XVe siècle. 2022. ⟨hal-03697382⟩
Thibault Clérice, Malamatenia Vlachou-Efstathiou, Alix Chagué. CREMMA Medii Aevi: Literary manuscript text recognition in Latin. Journal of Open Humanities Data, 2023, 9, pp.4. ⟨10.5334/johd.97⟩. ⟨hal-03828353v5⟩

	All versions	This version
Views	3,653	1,803
Downloads	4,389	1,971
Data volume	14.6 GB	5.5 GB

CATMuS Medieval

Contributors

Data collectors:

Researchers:

Files

metadata.json

Files (22.9 MB)

Additional details

Related works

Dates

References

CATMuS Medieval

Creators

Contributors

Data collectors:

Researchers:

Description

Files

metadata.json

Files (22.9 MB)

Additional details

Related works

Dates

References