Modèle de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500
Description
Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, entraîné grâce au logiciel kraken. La segmentation a été réalisée grâce à Ocropy. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne.
Réutilisation du modèle:
Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121.
Qualité du modèle:
Ce modèle a été entraîné sur 4610 lignes. Sur le corpus de test, son taux d'erreur est d'un peu plus de 3% (96.89%). Les données d'entraînement et de test sont fournies.
Crédits:
Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel d'entraînement et de reconnaissance rédigé par Jean-Baptiste Camps, qui peut être trouvé sur son carnet de recherche.
Merci à Simon Gabay pour son aide sur kraken !
Bibliographie:
Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html.
Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono.
Files
dataset_kraken.zip
Files
(29.8 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:3c51c5568a60379b8cc70d71210ed8b0
|
29.8 MB | Preview Download |