ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents [HisIR19] Dataset

Christlein, Vincent; Nicolaou, Anguelos; Seuret, Mathias; Stutzmann, Dominique; Maier, Andreas

doi:10.5281/zenodo.3262372

Published June 30, 2019 | Version 1.0

Dataset Open

ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents [HisIR19] Dataset

1. Pattern Recognition Lab, FAU
2. IRHT

This dataset contains the training and test set used in the ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents.

This competition investigates the performance of large-scale retrieval of historical document images based on
writing style. Based on large image data sets provided by cultural heritage institutions and digital libraries, providing
a total of 20 000 document images representing about 10 000 writers, divided in three types: writers of (i) manuscript books, (ii) letters, (iii) charters and legal documents. We focus on the task of automatic image retrieval to simulate common scenarios of humanities research, such as writer retrieval.

The training data set encompasses images from (i) Letters A, where each writer contributed one or three images; (ii) Manuscripts, where each writer was represented by five consecutive images from a single book.
In total, it contains 300 writers contributing one page, 100 writers contributing three pages, and 120 writers contributing five pages resulting in 1200 images of 520 writers.

The test data set contains 20 000 images: About 7 500 pages stem from isolated documents (partially anonymous writers, contributing one page each), and about 12 500 pages are from writers that contributed three or five pages.

If you use this dataset, please cite:

V. Christlein, A. Nicolaou, M. Seuret, D. Stutzmann, A. Maier: "ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents", in 15th International Conference on Document Analysis and Recognition, 2019, Sydney, Australia

Files

README.txt

Files (29.0 GB)

Name	Size	Download all
README.txt md5:967c59425d8c914f8c96753bb04c618b	1.2 kB	Preview Download
test_meta.csv md5:e33c17f7e104207d334650739b57a6cf	2.6 MB	Preview Download
val_meta.csv md5:e7ded35c05d519c9bda1810783a31251	188.9 kB	Preview Download
wi_comp19_test_ground_truth.csv md5:d9723f21039f6bf9c434e37b0f7922ec	485.2 kB	Preview Download
wi_comp_19_test_full.zip md5:ec9c9b84f37299a6e503954ddcd65d0f	26.2 GB	Preview Download
wi_comp_19_validation.zip md5:c968d5e4efd3aa322d2a2efe8bedf73d	2.8 GB	Preview Download
wi_comp_19val_ground_truth.csv md5:6ab8f4a22ef7feeaf93d4844224e136f	18.2 kB	Preview Download

Additional details

Is supplemented by: 10.5281/zenodo.1324999 (DOI)

	All versions	This version
Views	3,420	3,402
Downloads	2,308	2,302
Data volume	18.5 TB	18.5 TB

ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents [HisIR19] Dataset

Authors/Creators

Description

Files

README.txt

Files (29.0 GB)

Additional details

Related works