There is a newer version of the record available.

Published February 5, 2020 | Version v1
Dataset Open

Modèle de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500

  • 1. ÉNS de Lyon, CIHAM

Description

Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, entraîné grâce au logiciel kraken. La segmentation a été réalisée grâce à Ocropy. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne.

 

Réutilisation du modèle:

Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121.

 

Qualité du modèle:

Ce modèle a été entraîné sur 4610 lignes. Sur le corpus de test, son taux d'erreur est d'un peu plus de 3% (96.89%). Les données d'entraînement et de test sont fournies.

 

Crédits:

Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel d'entraînement et de reconnaissance rédigé par Jean-Baptiste Camps, qui peut être trouvé sur son carnet de recherche.

Merci à Simon Gabay pour son aide sur kraken !

Bibliographie:

Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html.

Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono.

 

Files

dataset_kraken.zip

Files (29.8 MB)

Name Size Download all
md5:3c51c5568a60379b8cc70d71210ed8b0
29.8 MB Preview Download