A dataset of manually transcribed and annotated land registry rows describing plots of the Butte-aux-Cailles neighborhood (1810-1860)
Authors/Creators
Contributors
Supervisor (4):
Description
📌 1. Overview
This dataset contains the structured transcription and semantic annotation of land registry records from a district of the commune of Gentilly (specifically the Butte-aux-Cailles neighborhood, which is today part of Paris). The data is extracted from three successive taxpayer mutation matrices (1813, 1836, and 1848), which correspond to two consecutive land registries versions used in this area, each featuring its own distinct set of maps and land plots numbering systems.
This dataset was utilized to evaluate the PeGazUs algorithm, as described in a paper presented at the EKAW 2024 conference. The semantic annotation properties and elements are formally documented in the TABULAE ontology (as well as in the PeGazUs ontology).
đź“‚ 2. Repository contents (files)
The dataset consists of 4 files in standard Comma-Separated Values (.csv) format, encoded in UTF-8:
- LISTE_PARCELLES.csv: An index file listing all land plots identified on the historical plots maps of the study area. It documents their presence or absence within the manually transcribed matrix records. Missing plots correspond to cases where the plot could not be found in the register.
- MAT_1813.csv: Transcription and semantic annotation of the 1813 cadastral matrix.
- MAT_1836.csv: Transcription and semantic annotation of the 1836 cadastral matrix.
- MAT_1848.csv: Transcription and semantic annotation of the 1848 cadastral matrix.
📊 3. Data structure and fields description
The suffixes _transcript, _clean, and _treated denote different processing stages: raw transcription, normalized transcription, and semantic annotation respectively.
3.1. LISTE_PARCELLES.csv
| Field Name | Description |
|---|---|
| PLAN_PARCELLAIRE | Publication year or reference of the historical cadastral map (e.g., 1810, 1847). |
| Section | Letter indicating the cadastral section (e.g., B, D). |
| Parcelle | The sequential plot number within its section. |
| Bâti ? | Built status of the plot (Oui/Non => True/False), indicating the presence of a building structure on the map. |
| Trouvé-1813 / Trouvé-1836 / Trouvé-1848 | Boolean flag (X if found, blank otherwise) certifying that at least one corresponding matrix line was successfully identified during the manual archival research phase. |
3.2. MAT_1813, MAT_1836, MAT_1848.csv
These files share a uniform, standardized schema designed to model the life cycle of land properties over time.
| Field Name | Description |
|---|---|
| Identifiers | |
| ID | Internal identifier matching the reading sequence in the matrix during the manual transcription phase. |
| UUID | Globally unique identifier assigned to the plot mention during data processing and used in the generated Knowledge Graph. |
| Register data | |
| Num_Folio | Page or folio number in the original physical archive ledger. |
| Type_CF | Typology of the tax ledger account: Built or Non-Built property (Bâti / Non Bâti). |
| Alt_Num_Folio | Alternative folio number. |
| Groupe_CF | The land account index/number inside that specific folio. |
| Ordre_de_lecture | Sequential appearance order of the line on the original page. |
| Image | Archive reference id for the digitized document image from which the data is derived. |
| Cote liée | Reference shelfmark of a related image or document providing complementary context. |
| Voie / Num_Voie | When a folio indexes plots by address (rather than just by taxpayer), this indicates the thoroughfare name and street number if available. |
| Plot data | |
| Section_clean | Cleaned and standardized cadastral section identifier. |
| Parcelle_clean / _treated | The plot number (stripped of its section letter) in raw and normalized formats. |
| Lieu-dit_transcript / _clean / _treated | The land locality or address description, transitioning from abbreviated text to a standardized Street;Number format. |
| Contribuable_transcript | Textual transcription of the taxpayer/property owner description. |
| Nature_transcript / _clean / _treated | Land-use and property typology (House, Garden, Arable land, Washhouse, Shop, Workshop, etc.). |
| Date entrée_transcript / _treated | The transfer date into the specific tax account (raw transcription and standardized date format). |
| Date sortie_transcript / _treated | The transfer date out of the specific tax account (raw transcription and standardized date format). |
| Tiré de_transcript / _treated | Cross-reference pointing to the previous folio or plot state. |
| Porté à_transcript / _treated | Cross-reference pointing to the next folio or plot state. |
| Ligne_barrée | Boolean indicator (Oui/Non) showing if the entire transaction line is crossed out in the register. |
| CF_rayé | Boolean indicator (Oui/Non) showing if the entire tax account is crossed out in the register. |
Note on special transcription tokens:
- →: Indicates text wrapping/line breaks in the original manuscript.
- ~~text~~: Represents words or clauses that were crossed out/strikethrough in the physical book (corresponding to ×TEXT± in the information extraction dataset).
- ↑ and ↓: Denote respectively the start and end of superscript text (frequently utilized for historical abbreviations, e.g., Mme).
Abstract (French)
French translation
📌 Présentation générale
Ce jeu de données comprend la transcription structurée et l'annotation sémantique des données cadastrales d'un quartier de la commune de Gentilly (la Butte-aux-Cailles, aujourd'hui située dans Paris) issues de trois matrices de contribuables successives (1813, 1836, et 1848) correspondant à deux cadastres successifs de cette zone ayant leurs ensembles de plans et leur nummérotation (qui différents).
Ce jeu de données a été utilisé pour évaluer l'algorithme PeGazUs décrit dans un article présenté lors de la conférence EKAW en 2024. Les éléments d'annotations sémantiques sont documentés dans l'ontologie TABULAE (et dans l'ontologie PeGazUs).
đź“‚ Contenu du dépôt (Structure des fichiers)
Le jeu de données comprend 4 fichiers au format .csv (encodage UTF-8, séparateur ,) :
- LISTE_PARCELLES.csv : Fichier d'indexation qui liste l'ensemble des parcelles identifiées sur les plans parcellaires de la zone d'étude. Il documente leur présence ou leur absence dans les données relevées manuellement dans les matrices. Les parcelles absentes le sont quand elles n'ont pas été retrouvée dans le registre.
- MAT_1813.csv : Transcription et annotation sémantique de la matrice cadastrale de 1813.
- MAT_1836.csv : Transcription et annotation sémantique de la matrice cadastrale de 1836.
- MAT_1848.csv : Transcription et annotation sémantique de la matrice cadastrale de 1848.
📊 Structure des données
1. Liste des parcelles LISTE_PARCELLES.csv
| Nom du champ | Description |
|---|---|
| PLAN_PARCELLAIRE | Année d'édition ou de référence du plan cadastral historique (ex: 1810, 1847). |
| Section | Lettre de la section cadastrale (ex: B, D). |
| Parcelle | Numéro d'ordre de la parcelle. |
| Bâti ? | Statut de la parcelle (Oui/Non) indiquant la présence d'une construction sur le plan. |
| Trouvé-1813 / Trouvé-1836 / Trouvé-1848 | Flag (X si trouvé, vide sinon) attestant la présence d'au moins une ligne de matrice retrouvée pour la parcelle pendant la phase de recherche manuelle. |
2. Matrices (MAT_1813, MAT_1836, MAT_1848)
Les fichiers partagent une structure commune et normalisée qui permet de modéliser le cycle de vie de la parcelle. Les suffixes _transcript / _clean / _treated indiquent les données de transcription brute, transcription normalisé, annotation sémantique.
| Catégorie / Champ | Description |
|---|---|
| Identifiants | |
| ID | Identifiant correspond à l'ordre de lecture dans la matrice lors des relevé. |
| UUID | Identifiant unique de la mention de parcelle lors du traitement et dans le graphe de connaissance produit à partir des données. |
| Données liées au registre | |
| Num_Folio | Numéro de la page/folio original du registre. |
| Type_CF | Typologie du compte foncier (Bâti / Non Bâti). |
| Alt_Num_Folio | Numéro de folio alternatif. |
| Groupe_CF | Numéro du compte foncier dans le folio. |
| Ordre_de_lecture | Ordre d'apparition de la ligne sur la page d'origine. |
| Image | Cote de l'image d'archive numérisée dont est issue l'information. |
| Cote liée | Cote d'une autre image donnant des information complémentaire sur l'image considérée. |
| Voie et Num_Voie | Si le folio liste les parcelles par adresse (en plus de les lister par contribuable), indique la voie associée au folio (le numéro dans la voie s'il existe). |
| Données liées aux parcelles | |
| Section_clean | Identifiant de la section. |
| Parcelle_clean / _treated | Numéro de la parcelle (sans la lettre indiquant la section). |
| Lieu-dit_transcript / _clean / _treated | Adresse de la parcelle (du texte brut abrégé au nom normalisé Voie;Numéro). |
| Contribuable_transcript | Description des contribuables. |
| Nature_transcript / _clean / _treated | Typologie de la nature de parcelle (Maison, Jardin, Terre, Lavoir, Boutique, Atelier, etc.). |
| Date entrée_transcript / _treated | Date d'entrée dans le compte foncier (brute et normalisée). |
| Date sortie_transcript / _treated | Date de sortie dans le compte foncier (brute et normalisée). |
| Tiré de_transcript / _treated | Compte foncier ou état précédant de la parcelle. |
| Porté à_transcript / _treated | Compte foncier ou état suivant de la parcelle. |
| Ligne_barrée | La ligne est-elle entièrement barrée ? (Oui/Non) |
| CF_rayé | Le compte foncier est-il entièrement barré ? (Oui/non) |
Remarque : les tokens spéciaux tels que →, ~~~~, ↑ et ↓ renseignent respectivement sur les retours à la ligne, les mots barrés, le début et la fin d'un texte en exposant (correspondant souvent à une abréviation).
Files
LISTE_PARCELLES.csv
Additional details
Additional titles
- Alternative title (French)
- Jeu de données produit manuellement comprenant la transcription et l'annotation sémantique des mentions des parcelles de la Butte-aux-Cailles dans le cadastre de Gentilly (1810-1860)
Related works
- Is continued by
- Dataset: https://github.com/umrlastig/pegazus-ontology/tree/main/data/land-registry (URL)
- Is derived from
- Other: https://archives.valdemarne.fr/recherches/archives-en-ligne/cadastre-napoleonien (URL)
- Is referenced by
- Conference proceeding: 10.1007/978-3-031-77792-9_22 (DOI)
Dates
- Collected
-
2024-09-28