There is a newer version of the record available.

Published February 5, 2020 | Version v3
Dataset Open

Modèle de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500

  • 1. ÉNS de Lyon, CIHAM

Description

Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, segmenté  et entraîné grâce au logiciel kraken via eScriptorium. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne.

 

Réutilisabilité du modèle:

Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121.

 

Qualité du modèle:

Ce modèle a été entraîné sur 4836 lignes (537 lignes composant le jeu d'évaluation). Son taux d'erreur est d'un peu moins de 3% (97.1%). Les vérités terrain sont fournies sous la forme d'un fichier ALTO. et d'images jpg

 

Crédits et remerciements:

Les données ont successivement été entraînées sur Ocropy et Kraken.  Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel rédigé par Jean-Baptiste Camps (ENC-PSL), qui peut être trouvé sur son carnet de recherche.

Merci à Simon Gabay (U. de Neuchâtel) pour son aide sur kraken et pour tous ses conseils méthodologiques.

Bibliographie:

Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html.

Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono.

« Homemade manuscript OCR (1): OCRopy », Sacré Gr@@l, 6 février 2017, https://graal.hypotheses.org/786

 

Files

zenodo.zip

Files (299.2 MB)

Name Size Download all
md5:93aff410104d5eccf9724fde18c2a9e5
299.2 MB Preview Download