Dataset Open Access

Corpus des Deutschen Bundesrechts (C-DBR)

Fobbe, Sean

 

Überblick

Das Corpus des deutschen Bundesrechts (C-DBR) ist eine möglichst vollständige Sammlung der konsolidierten Fassungen aller Gesetze und Verordnungen auf Bundesebene. Der Datensatz nutzt als seine Datenquelle das amtliche Internetangebot www.gesetze-im-internet.de des Bundesministeriums der Justiz und wertet dieses vollständig aus.

Bitte lesen Sie zuerst das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die PDF-Sammlung.

Um das Gesetzgebungsverfahren näher zu beleuchten können Sie zusätzlich auf folgende Datensätze zurückgreifen (jeweils mit Links auf vergleichbare Datensätze anderer Autor:innen):

 

NEU in Version 2022-08-05

 

  • Wenn der Download einer Datei scheitert wird der Kompilierungs-Prozess nicht mehr abgebrochen; Kontrolle über Datenabgleich im Compilation Report
  • Diagramme für Norm/Rechtsakt/Metadaten je Periodikum sind nun logarithmisch skaliert
  • Technischer Bugfix bei der Berechnung von Netzwerkdiagrammen
  • Neuer Unit Test um identische Länge von HTML-Links und extrahierten PDF- und EPUB-Dateinamen sicherzustellen
  • Fehlende PDF- oder EPUB-Dateien führen nun nicht mehr zu Fehlern in der Pipeline
  • Unterscheidung zwischen VBVG 2005 und VBVG 2023

 

Aktualisierung

Dieser Datensatz wird ca. alle 3 Monate aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Twitter unter @FobbeSean.

 

Eckdaten

Stichtag: 5. August 2022

Umfang: 6659 Bundesgesetze und -verordnungen der Bundesrepublik Deutschland

Formate: CSV, PDF, EPUB, TXT und XML

 

Features

  • Einfache Nutzung für statistische Analysen mit den CSV-Dateien ab Version 2021-01-05
  • Bis zu 42 Variablen in den CSV-Varianten
  • Fortlaufende Aktualisierung
  • Urheberrechtsfreiheit
  • Sowohl für traditionelle Rechtsanwender als auch für Legal Tech-Anwendungen geeignete Formate (CSV, PDF, EPUB, TXT und XML)
  • Umfangreicher Compilation Report um den Erstellungs-Prozess zu erläutern
  • Hochauflösende Diagramme und deskriptive Tabellen für alle Zwecke
  • Diagramme in PDF (Druck) und PNG (Web) verfügbar, Tabellen als menschen- und maschinenlesbares CSV
  • Vollständiges tabellarisches Verzeichnis aller Rechtsakte und der vom BMJV gebrauchten Abkürzungen
  • Netzwerk-Strukturen für alle Rechtsakte und Visualisierungen für über 1000 Rechtsakte (experimentell)
  • Veröffentlichung des Source Codes

 

Source Code und Compilation Report

Der gesamte Erstellungs-Prozess ist ab Version 2021-01-05 vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook).

Der Compilation Report enthält den vollständigen Source Code, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Er ist zusammen mit dem Source Code hinterlegt. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst.

Der vollständige Source Code — sowohl für die Erstellung des Datensatzes, als auch für das Codebook — ist öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://doi.org/10.5281/zenodo.6959381

 

Kryptographische Signaturen

Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei-Phasen-Signatur sichergestellt.

In Phase I werden während der Kompilierung für jedes ZIP-Archiv Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert.

In Phase II wird diese CSV-Datei mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden ist.

Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten:

Name: Sean Fobbe (fobbe-data@posteo.de)

Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42

 

Kein Urheberrecht: Public Domain

An den Normtexten und Metadaten besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

 

Disclaimer

Dieser Datensatz ist eine private wissenschaftliche Initiative und steht in keiner Verbindung zu Behörden, Gerichten oder anderen amtlichen Stellen der Bundesrepublik Deutschland.

 

Alternativen

[Ab 10.06.2019, nur XML] Beckedorf, Janis/Coupette, Corinna/Hartung, Dirk. 2020. "gesetze-im-internet: A daily archive of https://www.gesetze-im-internet.de". GitHub. https://github.com/QuantLaw/gesetze-im-internet

[Änderungsgesetze] Wehrmeyer, Stefan/Semsrott, Arne/Filter, Johannes. 2021. "OffeneGesetze.de ist eine zivilgesellschaftliche, ehrenamtliche Plattform für amtliche Gesetzesblätter". Open Knowledge Foundation. https://offenegesetze.de/

[Alte Rechtsakte] Open Knowledge Foundation. 2013. "Bundesgit". GitHub. https://github.com/bundestag/gesetze

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  zenodo.org/communities/sean-fobbe-data/

Source Code  —  zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  zenodo.org/communities/sean-fobbe-publications/

 

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

 

Files (1.5 GB)
Name Size
C-DBR_2022-08-05_Codebook.pdf
md5:273e9d93b7f992910892301fc3701255
564.9 kB Download
C-DBR_2022-08-05_DE_AlleRechtsakteVerzeichnis.csv
md5:5322527a8f931a8359910dcb838f52a3
988.6 kB Download
C-DBR_2022-08-05_DE_ANALYSE.zip
md5:3dc914512366f7b73182afca1b266bbf
1.7 MB Download
C-DBR_2022-08-05_DE_CSV_Einzelnormen_Datensatz.zip
md5:5d84360dd73c52f53ccbbffbeb4fc802
39.9 MB Download
C-DBR_2022-08-05_DE_CSV_Einzelnormen_Metadaten.zip
md5:e0a55a3f688479656eaab9d0dd418763
3.1 MB Download
C-DBR_2022-08-05_DE_CSV_MetadatenXML.zip
md5:f69ebd640bfda3efc7de1eacf5b04705
569.2 kB Download
C-DBR_2022-08-05_DE_CSV_Rechtsakte_Datensatz.zip
md5:f49e15b506ff8ede56360ff257e4db66
35.4 MB Download
C-DBR_2022-08-05_DE_CSV_Rechtsakte_Metadaten.zip
md5:4171a54e130fac73dc05c957521e7282
501.0 kB Download
C-DBR_2022-08-05_DE_EPUB_Datensatz.zip
md5:d08c864f5ad4aead40efe909e61971de
435.8 MB Download
C-DBR_2022-08-05_DE_Netzwerke.zip
md5:aa9a11c47e5a2bae00cc19d522b3c86f
16.4 MB Download
C-DBR_2022-08-05_DE_PDF_Datensatz.zip
md5:de5a734fdf8bdc27f3d8127fd9169b95
583.8 MB Download
C-DBR_2022-08-05_DE_TXT_Datensatz.zip
md5:7784a3491e32f370868180835b81edca
48.0 MB Download
C-DBR_2022-08-05_DE_XML_Anlagen.zip
md5:946e5127c0f31611629e11560d2c7799
267.1 MB Download
C-DBR_2022-08-05_DE_XML_Datensatz.zip
md5:2b867e0e0211f971374bf3f1ba1fd0b4
49.9 MB Download
C-DBR_2022-08-05_DE_XML_DocumentTypeDefinition_v1-01.dtd
md5:f1eb42c5e7fb87cde2ab4884e060340d
8.9 kB Download
C-DBR_2022-08-05_KryptographischeSignaturen.zip
md5:4da904c26a97873b7f52c0995f481f9d
6.7 kB Download
2,081
1,035
views
downloads
All versions This version
Views 2,08148
Downloads 1,03521
Data volume 40.9 GB719.6 MB
Unique views 1,80644
Unique downloads 65915

Share

Cite as