Published August 18, 2022 | Version v7
Dataset Open

Jeu de données de segmentation et de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500

  • 1. ÉNS de Lyon, CIHAM

Description

[Information importante: ce jeu de données a été versé dans un jeu plus ample (28.000 lignes) contenant majoritairement des données manuscrites: https://zenodo.org/record/7389195]

 

Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, entraîné grâce au logiciel kraken via eScriptorium. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne.

 

Il contient de même un modèle de segmentation entraîné de même sur kraken après segmentation manuelle sur eScriptorium.

 

Description du jeu de données:

Le jeu de données contient 62 pages et 5556 lignes. Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121.

Les zones du modèle de segmentation sont conformes au vocabulaire partagé SegmOnto (https://segmonto.github.io/).

 

Qualité du modèle:

Le modèle a été entraîné sur 5556 lignes. Son taux d'erreur est d'un peu plus de 3% (96.5%). Les vérités terrain sont fournies au format ALTO et jpeg.

Deux modèles de segmentation sont fournis, pour les baselines et pour les régions.

 

Crédits et remerciements:

Les données ont successivement été entraînées sur Ocropy et Kraken.  Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel rédigé par Jean-Baptiste Camps (ENC-PSL), qui peut être trouvé sur son carnet de recherche.

Merci à Simon Gabay (U. de Neuchâtel) pour son aide sur kraken et pour tous ses conseils méthodologiques.

Bibliographie:

Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html.

Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono.

« Homemade manuscript OCR (1): OCRopy », Sacré Gr@@l, 6 février 2017, https://graal.hypotheses.org/786

 

Files

inc_901_zenodo.zip

Files (338.0 MB)

Name Size Download all
md5:261379d8719baf439f45637e531a936d
338.0 MB Preview Download