Modèle de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500
Description
Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, segmenté et entraîné grâce au logiciel kraken via eScriptorium. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne.
Réutilisabilité du modèle:
Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121.
Qualité du modèle:
Ce modèle a été entraîné sur 4836 lignes (537 lignes composant le jeu d'évaluation). Son taux d'erreur est d'un peu moins de 3% (97.1%). Les vérités terrain sont fournies sous la forme d'un fichier ALTO. et d'images jpg
Crédits et remerciements:
Les données ont successivement été entraînées sur Ocropy et Kraken. Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel rédigé par Jean-Baptiste Camps (ENC-PSL), qui peut être trouvé sur son carnet de recherche.
Merci à Simon Gabay (U. de Neuchâtel) pour son aide sur kraken et pour tous ses conseils méthodologiques.
Bibliographie:
Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html.
Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono.
« Homemade manuscript OCR (1): OCRopy », Sacré Gr@@l, 6 février 2017, https://graal.hypotheses.org/786
Files
zenodo.zip
Files
(299.2 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:93aff410104d5eccf9724fde18c2a9e5
|
299.2 MB | Preview Download |