There is a newer version of the record available.

Published January 5, 2021 | Version 2021-01-05
Dataset Open

Corpus des Deutschen Bundesrechts (C-DBR)

Creators

Description

 

Überblick

Das Corpus des deutschen Bundesrechts (C-DBR) ist eine möglichst vollständige Sammlung der konsolidierten Fassungen aller Gesetze und Verordnungen auf Bundesebene. Der Datensatz nutzt als seine Datenquelle das amtliche Internetangebot www.gesetze-im-internet.de des Bundesministeriums der Justiz und wertet dieses vollständig aus.

Bitte lesen Sie zuerst das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die PDF-Sammlung.

 

NEU in Version 2021-01-05!

Jetzt mit bis zu 34 Variablen in den CSV-Dateien, einem brandneuen und umfangreichen Codebook, detailliertem Compilation Report, Diagrammen, maschinenlesbaren Tabellen, kryptographischen Signaturen und viel mehr!

 

Aktualisierung

Dieser Datensatz wird ca. alle 3 Monate aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Twitter unter @FobbeSean.

 

Eckdaten

Stichtag: 5. Januar 2021

Umfang: 6577 Bundesgesetze und -verordnungen der Bundesrepublik Deutschland (Version 2021-01-05)

Formate: CSV, PDF, EPUB, TXT, XML

 

Features

Einfache Nutzung für statistische Analysen mit den CSV-Dateien ab Version 2021-01-05!

Die Stärken dieses Datensatzes sind die fortlaufende Aktualisierung, Urheberrechtsfreiheit und die sowohl für traditionelle Rechtsanwender als auch für Legal Tech-Anwendungen geeigneten Formate.

Im ZIP-Archiv ANALYSE stelle ich zudem 69 hochwertige Diagramme und Tabellen für alle Zwecke zur Verfügung. Jedes Diagramm liegt in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor. Tabellen sind im CSV-Format gehalten, welches sowohl für Menschen als auch für Maschinen gut lesbar ist.

Ein Abkürzungsverzeichnis enthält die Abkürzungen und Langnamen aller veröffentlichten Rechtsakte.

 

Varianten

Der Datensatz enthält die Gesetze und Verordnungen in den Formaten CSV, PDF, EPUB, TXT und XML, sowie die Anlagen zu den XML-Daten in einem separaten Archiv.

Die Nutzung der Dateien im CSV-Format wird von mir für alle statistischen Analysen dringend empfohlen! Die Dateien enthalten bis zu 34 Variablen die aus den XML-Dateien auf Basis von juristischem Sachverstand vollautomatisch extrahiert wurden. Der Datensatz liegt in fünf verschiedenen CSV-Varianten vor. Primäre Unterschiede sind die Unterteilung in Einzelnormen/Rechtsakte bzw. mit/ohne Normtexte. Bitte lesen Sie das Codebook genau um die für Sie beste Variante zu bestimmen!

Sehr erfahrene und technisch versierte AnalystInnen sollten die Daten im XML-Format nutzen. Hierdurch ist eine noch zielgenauere Analyse als mit den CSV-Dateien möglich. Die zugrundeliegende Document Type Definition (DTD) ist im Datensatz enthalten.

Die Dokumente im PDF-Format sind vor allem für die Arbeit an normalen Schreibtisch-Monitoren geeignet.

Die Dokumente im EPUB-Format eignen sich besonders für die Nutzung auf mobilen Endgeräten (Smartphone, Tablet etc.), da sie sich der Größe des Bildschirms anpassen können. Der Vorteil der EPUB-Dokumente im Vergleich zu Apps wie ist, dass diese komplett anonym und ohne Preisgabe persönlicher Daten genutzt werden können.

Nutzer mit einer langsamen Internetverbindung sollten die Daten im TXT-Format wählen, die in ihrem Layout dem der PDF-Dokumente angelehnt sind und wegen ihrer geringen Dateigröße sehr schnell heruntergeladen werden können. Mit den TXT-Daten können zudem schnelle lokale Volltext-Suchen durchgeführt werden z.B. mit Programmen wie grep (Linux) und grepWin (Windows). Sie können aber auch für statistische Analysen benutzt werden.

 

Source Code und Compilation Report

Der gesamte Erstellungs-Prozess ist ab Version 2021-01-05 vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook). Der Compilation Report enthält den vollständigen Source Code, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Er ist zusammen mit dem Source Code hinterlegt. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst.

Der vollständige Source Code — sowohl für die Erstellung des Datensatzes, als auch für das Codebook — ist öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://doi.org/10.5281/zenodo.4384767

 

Kryptographische Signaturen

Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei-Phasen-Signatur sichergestellt.

In Phase I werden während der Kompilierung für jedes ZIP-Archiv Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert.

In Phase II wird diese CSV-Datei mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden ist.

Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten:

Name: Sean Fobbe (fobbe-data@posteo.de)

Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42

 

Kein Urheberrecht: Public Domain

An den Normtexten und Metadaten besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

 

Disclaimer

Dieser Datensatz ist eine private wissenschaftliche Initiative und steht in keiner Verbindung zu Behörden, Gerichten oder anderen amtlichen Stellen der Bundesrepublik Deutschland.

 

Weitere Open Access Veröffentlichungen (Fobbe)

Open Data: https://zenodo.org/communities/sean-fobbe-data/

Open Source Code Repository: https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen: https://zenodo.org/communities/sean-fobbe-publications/

 

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

 

Files

C-DBR_2021-01-05_Codebook.pdf

Files (1.4 GB)

Name Size Download all
md5:7b5f22f79647fac5cb7db9a566e1a79b
529.8 kB Preview Download
md5:6f5ed98edee4b73c1b7031306244a92b
872.4 kB Preview Download
md5:6f47ba51ec859cfb756ec745e34625d7
990.3 kB Preview Download
md5:5f5a267d57426ddb76dce3e78e6bd43e
37.2 MB Preview Download
md5:a3764ccae793fc13e75fd9144a0b17f6
2.4 MB Preview Download
md5:5e6f2c467811c247fbb0530bf53166f5
535.7 kB Preview Download
md5:35d4c04406de1b58bc93a7eca4c284eb
33.7 MB Preview Download
md5:b3fa3ddd186f4d97852b57c8421c7887
445.5 kB Preview Download
md5:c63ccfbdff1539326787086cc295f838
420.9 MB Preview Download
md5:9b0b45b822ab97456c3cb1aa10670bb5
562.1 MB Preview Download
md5:303edd49ffbcd7df88b964f367949fdc
45.6 MB Preview Download
md5:1682e47c8fef6da629a1604d16bb0d76
254.1 MB Preview Download
md5:52288d413be5301b3dfc02dc7ec25ca7
47.7 MB Preview Download
md5:f1eb42c5e7fb87cde2ab4884e060340d
8.9 kB Download
md5:510eab238c572975f1492055278173bb
5.0 kB Preview Download

Additional details

Related works

Is compiled by
Software: 10.5281/zenodo.4384767 (DOI)
Is derived from
Other: https://www.gesetze-im-internet.de (URL)