There is a newer version of the record available.

Published January 7, 2025 | Version 2025-01-07
Dataset Open

Corpus des Deutschen Bundesrechts (C-DBR)

Authors/Creators

  • 1. Ludwig-Maximilians-Universität München

Description

Überblick

Das Corpus des deutschen Bundesrechts (C-DBR) ist eine möglichst vollständige Sammlung der konsolidierten Fassungen aller Gesetze und Verordnungen auf Bundesebene. Der Datensatz nutzt als seine Datenquelle das amtliche Internetangebot www.gesetze-im-internet.de des Bundesministeriums der Justiz und wertet dieses vollständig aus.

Bitte lesen Sie zuerst das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die PDF-Sammlung.

Um das Gesetzgebungsverfahren näher zu beleuchten können Sie zusätzlich auf folgende Datensätze zurückgreifen (jeweils mit Links auf vergleichbare Datensätze anderer Autor:innen):

 

Aktualisierung

Dieser Datensatz wird ca. alle 3 Monate aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org

 

NEU in Version 2025-01-07

  • Vollständige Aktualisierung der Daten
  • Überarbeitung der Dokumentation zu den Varianten des Datensatzes
  • Expliziter R Package Version Lock für 2024-06-13 (CRAN Date)
  • Überarbeitung des Dockerfiles
  • Vereinheitlichung der Komponenten für PDF-Extraktion und Berechnung kryptographischer Hashes
  • Vereinfachung der Run-Skripte und stärkere Integration mit Docker Compose
  • /tmp in Arbeitsspeicher ausgelagert
  • Entfernung von überholtem Source Code
  • Entfernung der Tesseract System Library
  • Entfernung der Nummerierung von Diagrammen

 

Eckdaten

Stichtag:  7. Januar 2025

Umfang: 6811 Bundesgesetze und -verordnungen der Bundesrepublik Deutschland

Formate: CSV, PDF, EPUB, TXT und XML

 

Features

  • Einfache Nutzung für statistische Analysen mit CSV-Dateien
  • Bis zu 42 Variablen in den CSV-Varianten
  • Fortlaufende Aktualisierung
  • Urheberrechtsfreiheit
  • Sowohl für traditionelle Rechtsanwender als auch für Legal Tech-Anwendungen geeignete Formate (CSV, PDF, EPUB, TXT und XML)
  • Umfangreicher Compilation Report um den Erstellungs-Prozess zu erläutern
  • Hochauflösende Diagramme und deskriptive Tabellen für alle Zwecke
  • Diagramme in PDF (Druck) und PNG (Web) verfügbar, Tabellen als menschen- und maschinenlesbares CSV
  • Vollständiges tabellarisches Verzeichnis aller Rechtsakte und der vom BMJV gebrauchten Abkürzungen
  • Netzwerk-Strukturen für alle Rechtsakte und Visualisierungen für über 1000 Rechtsakte (experimentell)
  • Veröffentlichung des Source Codes

 

Source Code und Compilation Report

Der gesamte Erstellungs-Prozess ist vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook). Zudem werden Robustness Checks auf Vollständigkeit und Plausibilität durchgeführt und in einem separaten Bericht dokumentiert.

Der Compilation Report enthält den Code für die vollständige Pipeline, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Er ist zusammen mit dem Source Code hinterlegt. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst.

Der vollständige Source Code — sowohl für die Erstellung des Datensatzes, als auch für das Codebook — ist öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://zenodo.org/doi/10.5281/zenodo.4072934

 

Kryptographische Signaturen

Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei-Phasen-Signatur sichergestellt.

In Phase I werden während der Kompilierung für jedes ZIP-Archiv, das Codebook und die Robustness Checks Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert.

In Phase II werden diese CSV-Datei und der Compilation Report mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden ist.

Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten:

Name: Sean Fobbe (fobbe-data@posteo.de)

Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42

 

Kein Urheberrecht: Public Domain

An den Normtexten und Metadaten besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

 

Disclaimer

Dieser Datensatz ist eine private wissenschaftliche Initiative und steht in keiner Verbindung zu Behörden, Gerichten oder anderen öffentlichen Stellen der Bundesrepublik Deutschland.

 

Alternativen

[Ab 10.06.2019, nur XML] Beckedorf, Janis/Coupette, Corinna/Hartung, Dirk. 2020. "gesetze-im-internet: A daily archive of https://www.gesetze-im-internet.de". GitHub. https://github.com/QuantLaw/gesetze-im-internet

[Änderungsgesetze] Wehrmeyer, Stefan/Semsrott, Arne/Filter, Johannes. 2021. "OffeneGesetze.de ist eine zivilgesellschaftliche, ehrenamtliche Plattform für amtliche Gesetzesblätter". Open Knowledge Foundation. https://offenegesetze.de/

[Alte Rechtsakte] Open Knowledge Foundation. 2013. "Bundesgit". GitHub. https://github.com/bundestag/gesetze

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  zenodo.org/communities/sean-fobbe-data/

Source Code  —  zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  zenodo.org/communities/sean-fobbe-publications/

 

Kontakt

Fehler gefunden? Anregungen? Kommentieren Sie gerne im Issue Tracker auf GitHub oder kontaktieren Sie mich über www.seanfobbe.de

Files

C-DBR_2025-01-07_Codebook.pdf

Files (1.5 GB)

Name Size Download all
md5:90cee20f11f93a2d30a8fd41cd3aef18
622.8 kB Preview Download
md5:bd05e5cbbef7f053fbf78adff0fdebd7
1.0 MB Preview Download
md5:d5e856595e3f0827963e033fa46a707a
4.3 MB Preview Download
md5:1c66d270e5f7730c58b1ebfeaf62cd05
41.4 MB Preview Download
md5:4f59be6ac1756f5a6cdbe9bc09f84f7f
3.0 MB Preview Download
md5:0f2d5e44d20313301a26b9e6d77beca6
564.0 kB Preview Download
md5:ac7ea1af9a6bbf580202f78531d6887d
37.6 MB Preview Download
md5:623d635be9e4c4e2f8420e07b4b032a0
516.6 kB Preview Download
md5:6660b94aef90300639c88015287695e6
425.5 MB Preview Download
md5:e7c42c2bf2ca47c4e4cd31604cbbc2ca
73.5 MB Preview Download
md5:a82c86c9db6eac911c4da2927de1bfb0
608.2 MB Preview Download
md5:ee0378f60ac76a53d7b4ea09f6475bd2
50.8 MB Preview Download
md5:22aee3a7f25ec9782fee4497e8562e88
249.8 MB Preview Download
md5:b1297eb8683b01533a000d90972209d7
52.6 MB Preview Download
md5:f1eb42c5e7fb87cde2ab4884e060340d
8.9 kB Download
md5:512f3c43369e9540238b121091a7b035
7.0 kB Preview Download

Additional details

Related works

Is compiled by
Software: 10.5281/zenodo.14592347 (DOI)
Software: https://github.com/SeanFobbe/c-dbr (URL)
Is derived from
Other: https://www.gesetze-im-internet.de (URL)

Software

Repository URL
https://github.com/SeanFobbe/c-dbr
Programming language
R
Development Status
Active