InciText — Incident-Centric Text Dataset for Attribute Extraction

Solaiman, KMA; Bhargava, Bharat

doi:10.5281/zenodo.18262749

Published January 15, 2026 | Version 1.0

Dataset Open

InciText — Incident-Centric Text Dataset for Attribute Extraction

1. University of Maryland, Baltimore County
2. Purdue University West Lafayette

This release provides InciText v1.0, an incident-centric text dataset released for research and academic use.

Scope

InciText includes incident reports, press releases, newspaper articles, and synthetic or generated narratives used for attribute extraction and retrieval research.

Some documents were provided in privacy-reviewed or historical form.
Users should follow applicable ethical and institutional guidelines.

Dataset Composition

The frequency of each data type in the FemmIR-text corpus is:

Newspaper articles: 300
Officer narratives: 40
Press releases: 13
Dispatch reports: 5
Synthetic narratives: 1500

Citation

If you use this dataset, please cite:

@misc{solaiman2025modularunsupervisedframeworkattribute,
title={A Modular Unsupervised Framework for Attribute Recognition from Unstructured Text},
author={KMA Solaiman},
year={2025},
eprint={2507.03949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.03949},
}

Files

InciText.zip

Files (2.9 MB)

Name	Size	Download all
InciText.zip md5:77a9618e9102fe54c29d9a2543bc0002	2.9 MB	Preview Download

	All versions	This version
Views	113	113
Downloads	24	24
Data volume	69.2 MB	69.2 MB

InciText — Incident-Centric Text Dataset for Attribute Extraction

Authors/Creators

Description

Contents

Scope

Dataset Composition

Citation

Files

InciText.zip

Files (2.9 MB)