Published June 22, 2026 | Version 1

A dataset of manually transcribed and annotated land registry rows describing plots of the Butte-aux-Cailles neighborhood (1810-1860)

Authors/Creators

  • 1. ROR icon Laboratoire en Sciences et Technologies de l'Information GĂ©ographique pour la ville intelligente et les territoires durables
  • 1. ROR icon Institut national de l'information gĂ©ographique et forestière
  • 2. EPITA

Description

📌 1. Overview

This dataset contains the structured transcription and semantic annotation of land registry records from a district of the commune of Gentilly (specifically the Butte-aux-Cailles neighborhood, which is today part of Paris). The data is extracted from three successive taxpayer mutation matrices (1813, 1836, and 1848), which correspond to two consecutive land registries versions used in this area, each featuring its own distinct set of maps and land plots numbering systems.

This dataset was utilized to evaluate the PeGazUs algorithm, as described in a paper presented at the EKAW 2024 conference. The semantic annotation properties and elements are formally documented in the TABULAE ontology (as well as in the PeGazUs ontology).

đź“‚ 2. Repository contents (files)

The dataset consists of 4 files in standard Comma-Separated Values (.csv) format, encoded in UTF-8:

  • LISTE_PARCELLES.csv: An index file listing all land plots identified on the historical plots maps of the study area. It documents their presence or absence within the manually transcribed matrix records. Missing plots correspond to cases where the plot could not be found in the register.
  • MAT_1813.csv: Transcription and semantic annotation of the 1813 cadastral matrix.
  • MAT_1836.csv: Transcription and semantic annotation of the 1836 cadastral matrix.
  • MAT_1848.csv: Transcription and semantic annotation of the 1848 cadastral matrix.

📊 3. Data structure and fields description

The suffixes _transcript, _clean, and _treated denote different processing stages: raw transcription, normalized transcription, and semantic annotation respectively.

3.1. LISTE_PARCELLES.csv

Field Name Description
PLAN_PARCELLAIRE Publication year or reference of the historical cadastral map (e.g., 1810, 1847).
Section Letter indicating the cadastral section (e.g., B, D).
Parcelle The sequential plot number within its section.
Bâti ? Built status of the plot (Oui/Non => True/False), indicating the presence of a building structure on the map.
Trouvé-1813 / Trouvé-1836 / Trouvé-1848 Boolean flag (X if found, blank otherwise) certifying that at least one corresponding matrix line was successfully identified during the manual archival research phase.
 

3.2. MAT_1813, MAT_1836, MAT_1848.csv

These files share a uniform, standardized schema designed to model the life cycle of land properties over time.

Field Name Description
Identifiers
ID Internal identifier matching the reading sequence in the matrix during the manual transcription phase.
UUID Globally unique identifier assigned to the plot mention during data processing and used in the generated Knowledge Graph.
Register data
Num_Folio Page or folio number in the original physical archive ledger.
Type_CF Typology of the tax ledger account: Built or Non-Built property (Bâti / Non Bâti).
Alt_Num_Folio Alternative folio number.
Groupe_CF The land account index/number inside that specific folio.
Ordre_de_lecture Sequential appearance order of the line on the original page.
Image Archive reference id for the digitized document image from which the data is derived.
Cote liée Reference shelfmark of a related image or document providing complementary context.
Voie / Num_Voie When a folio indexes plots by address (rather than just by taxpayer), this indicates the thoroughfare name and street number if available.
Plot data
Section_clean Cleaned and standardized cadastral section identifier.
Parcelle_clean / _treated The plot number (stripped of its section letter) in raw and normalized formats.
Lieu-dit_transcript / _clean / _treated The land locality or address description, transitioning from abbreviated text to a standardized Street;Number format.
Contribuable_transcript Textual transcription of the taxpayer/property owner description.
Nature_transcript / _clean / _treated Land-use and property typology (House, Garden, Arable land, Washhouse, Shop, Workshop, etc.).
Date entrée_transcript / _treated The transfer date into the specific tax account (raw transcription and standardized date format).
Date sortie_transcript / _treated The transfer date out of the specific tax account (raw transcription and standardized date format).
Tiré de_transcript / _treated Cross-reference pointing to the previous folio or plot state.
Porté à_transcript / _treated Cross-reference pointing to the next folio or plot state.
Ligne_barrée Boolean indicator (Oui/Non) showing if the entire transaction line is crossed out in the register.
CF_rayé Boolean indicator (Oui/Non) showing if the entire tax account is crossed out in the register.

Note on special transcription tokens:

  • : Indicates text wrapping/line breaks in the original manuscript.
  • ~~text~~: Represents words or clauses that were crossed out/strikethrough in the physical book (corresponding to ×TEXT± in the information extraction dataset).
  • and : Denote respectively the start and end of superscript text (frequently utilized for historical abbreviations, e.g., Mme).

Abstract (French)

French translation

📌 Présentation générale

Ce jeu de données comprend la transcription structurée et l'annotation sémantique des données cadastrales d'un quartier de la commune de Gentilly (la Butte-aux-Cailles, aujourd'hui située dans Paris) issues de trois matrices de contribuables successives (1813, 1836, et 1848) correspondant à deux cadastres successifs de cette zone ayant leurs ensembles de plans et leur nummérotation (qui différents).

Ce jeu de données a été utilisé pour évaluer l'algorithme PeGazUs décrit dans un article présenté lors de la conférence EKAW en 2024. Les éléments d'annotations sémantiques sont documentés dans l'ontologie TABULAE (et dans l'ontologie PeGazUs).

đź“‚ Contenu du dépôt (Structure des fichiers)

Le jeu de données comprend 4 fichiers au format .csv (encodage UTF-8, séparateur ,) :

  • LISTE_PARCELLES.csv : Fichier d'indexation qui liste l'ensemble des parcelles identifiées sur les plans parcellaires de la zone d'étude. Il documente leur présence ou leur absence dans les données relevées manuellement dans les matrices. Les parcelles absentes le sont quand elles n'ont pas été retrouvée dans le registre.
  • MAT_1813.csv : Transcription et annotation sémantique de la matrice cadastrale de 1813.
  • MAT_1836.csv : Transcription et annotation sémantique de la matrice cadastrale de 1836.
  • MAT_1848.csv : Transcription et annotation sémantique de la matrice cadastrale de 1848.

📊 Structure des données

1. Liste des parcelles LISTE_PARCELLES.csv

Nom du champ Description
PLAN_PARCELLAIRE Année d'édition ou de référence du plan cadastral historique (ex: 1810, 1847).
Section Lettre de la section cadastrale (ex: B, D).
Parcelle Numéro d'ordre de la parcelle.
Bâti ? Statut de la parcelle (Oui/Non) indiquant la présence d'une construction sur le plan.
Trouvé-1813 / Trouvé-1836 / Trouvé-1848 Flag (X si trouvé, vide sinon) attestant la présence d'au moins une ligne de matrice retrouvée pour la parcelle pendant la phase de recherche manuelle.
 

2. Matrices (MAT_1813, MAT_1836, MAT_1848)

Les fichiers partagent une structure commune et normalisée qui permet de modéliser le cycle de vie de la parcelle. Les suffixes _transcript / _clean / _treated indiquent les données de transcription brute, transcription normalisé, annotation sémantique.

Catégorie / Champ Description
Identifiants
ID Identifiant correspond à l'ordre de lecture dans la matrice lors des relevé.
UUID Identifiant unique de la mention de parcelle lors du traitement et dans le graphe de connaissance produit à partir des données.
Données liées au registre
Num_Folio Numéro de la page/folio original du registre.
Type_CF Typologie du compte foncier (Bâti / Non Bâti).
Alt_Num_Folio Numéro de folio alternatif.
Groupe_CF Numéro du compte foncier dans le folio.
Ordre_de_lecture Ordre d'apparition de la ligne sur la page d'origine.
Image Cote de l'image d'archive numérisée dont est issue l'information.
Cote liée Cote d'une autre image donnant des information complémentaire sur l'image considérée.
Voie et Num_Voie Si le folio liste les parcelles par adresse (en plus de les lister par contribuable), indique la voie associée au folio (le numéro dans la voie s'il existe).
Données liées aux parcelles
Section_clean Identifiant de la section.
Parcelle_clean / _treated Numéro de la parcelle (sans la lettre indiquant la section).
Lieu-dit_transcript / _clean / _treated Adresse de la parcelle (du texte brut abrégé au nom normalisé Voie;Numéro).
Contribuable_transcript Description des contribuables.
Nature_transcript / _clean / _treated Typologie de la nature de parcelle (Maison, Jardin, Terre, Lavoir, Boutique, Atelier, etc.).
Date entrée_transcript / _treated Date d'entrée dans le compte foncier (brute et normalisée).
Date sortie_transcript / _treated Date de sortie dans le compte foncier (brute et normalisée).
Tiré de_transcript / _treated Compte foncier ou état précédant de la parcelle.
Porté à_transcript / _treated Compte foncier ou état suivant de la parcelle.
Ligne_barrée La ligne est-elle entièrement barrée ? (Oui/Non)
CF_rayé Le compte foncier est-il entièrement barré ? (Oui/non)

Remarque : les tokens spéciaux tels que , ~~~~, et renseignent respectivement sur les retours à la ligne, les mots barrés, le début et la fin d'un texte en exposant (correspondant souvent à une abréviation).

Files

LISTE_PARCELLES.csv

Files (130.0 kB)

Name Size Download all
md5:7fbd567531b73cc5714404f8b1bae439
2.3 kB Preview Download
md5:63d739465fe8a351880e42c59dc22382
19.2 kB Preview Download
md5:0ee30a6674782b6066522fe72c5428d6
48.9 kB Preview Download
md5:a10c41361af06ca9a1541a280f724328
59.5 kB Preview Download

Additional details

Additional titles

Alternative title (French)
Jeu de données produit manuellement comprenant la transcription et l'annotation sémantique des mentions des parcelles de la Butte-aux-Cailles dans le cadastre de Gentilly (1810-1860)

Dates

Collected
2024-09-28