Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)

doi:10.5281/zenodo.5910135

Published February 12, 2022 | Version 2022-02-12

Dataset Open

Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)

Fobbe, Sean

Überblick

Das Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH) ist der bislang größte, frei verfügbare Datensatz von Entscheidungen des Bundesgerichtshofs. Er ist eine Zusammenstellung aller Entscheidungen die in der amtlichen Datenbank des Bundesgerichtshofs am jeweiligen Stichtag veröffentlicht waren.

Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die PDF-Sammlung.

Für Praktiker:innen stelle ich zusätzlich nach Senat sortierte PDF-Sammlungen aller Leitsatzentscheidungen und aller Entscheidungen mit Namen (z.B. »Trabrennbahn«) zur Verfügung.

Aktualisierung

Dieser Datensatz wird ca. alle 6 Monate aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Twitter unter @FobbeSean.

NEU in Version 2022-02-12

Vollständige Aktualisierung der Daten
Strenge Kontrolle und semantische Sortierung aller Variablen entsprechend der Reihenfolge im Codebook
Datenstruktur wird nicht mehr im Codebook angezeigt um Fehler mit der UTF8-Kodierung und listings für LaTeX zu vermeiden
Strenge Versionskontrolle von R packages mit renv
Der Prozess der Kompilierung ist jetzt detailliert konfigurierbar, insbesondere die Parallelisierung
Parallelisierung nun vollständig mit future statt mit foreach und doParallel
Fehlerhafte Kompilierungen werden beim vor der nächsten Kompilierung vollautomatisch aufgeräumt
Alle Ergebnisse werden automatisch fertig verpackt in den Ordner 'output' sortiert
README und CHANGELOG sind jetzt externe Markdown-Dateien, die bei der Kompilierung automatisiert eingebunden werden
Issue #1 fixed: Senate normalisiert; die Variable "spruchkoerper_db" enthält nun die Präfixe "Strafsenat" und "Zivilsenat" vor der jeweiligen Senatsnummer um in den Dateinamen eine einfachere Orientierung zu ermöglichen
Issue #2 fixed: Variablen nicht mehr doppelt definiert
Issue #3 fixed: Alle Dateinamen-Präfixe nun korrekt
Source Code des Changelogs zu Markdown konvertiert
In der Vergangenheit fälschlich als "Platzhalter" aussortierte drei Dokumente sind nun im Datensatz enthalten
Das Diagramm "Entscheidungen je Registerzeichen" ist nun zu einer Log-Skala konvertiert um die Darstellung informativer zu gestalten

Features

Insgesamt bis zu 31 Variablen in der CSV-Variante
Fortlaufende Aktualisierung
Urheberrechtsfreiheit
Offene und plattformunabhängige Formate (PDF, TXT, CSV)
Verknüpfung mit PräsidentIn/Vize-PräsidentIn
Linguistische Kennzahlen
Umfangreiches Codebook
Compilation Report um den Erstellungs-Prozess zu erläutern
Dutzende Diagramme und Tabellen für alle Zwecke (im ZIP-Archiv 'ANALYSE')
Jedes Diagramm liegt in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor. Tabellen sind im CSV-Format bereitgestellt und sind damit sowohl für Menschen als auch für Maschinen gut lesbar
Kryptographische Signaturen
Veröffentlichung des Source Codes

Eckdaten

Stichtag: 12. Februar 2022

Inhaltlicher Umfang: 68.997 Entscheidungen

Zeitlicher Umfang: 2000 bis 2022

Formate: PDF, TXT und CSV

Source Code und Compilation Report

Der gesamte Erstellungs-Prozess ist ab Version 2021-04-27 vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook).

Der Compilation Report enthält den vollständigen Source Code, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Er ist zusammen mit dem Source Code hinterlegt. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst.

Der vollständige Source Code — sowohl für die Erstellung des Datensatzes, als auch für das Codebook — ist öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://doi.org/10.5281/zenodo.5910138

Kryptographische Signaturen

Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei- Phasen-Signatur sichergestellt.

In Phase I werden während der Kompilierung für jedes ZIP-Archiv Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert.

In Phase II wird diese CSV-Datei mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden ist.

Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten:

Name: Sean Fobbe (fobbe-data@posteo.de)

Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42

Kein Urheberrecht: Public Domain

An den Entscheidungstexten und amtlichen Leitsätzen besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

Disclaimer

Dieser Datensatz ist eine private wissenschaftliche Initiative und steht weder mit dem Bundesgerichtshof noch mit den Herausgebern der BGHZ/BGHSt in Verbindung.

Weitere Open Access Veröffentlichungen (Fobbe)

Website — www.seanfobbe.de

Open Data — zenodo.org/communities/sean-fobbe-data/

Source Code — zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen — zenodo.org/communities/sean-fobbe-publications/

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

Files

CE-BGH_2022-02-12_Codebook.pdf

Files (9.3 GB)

Name	Size	Download all
CE-BGH_2022-02-12_Codebook.pdf md5:920e6fc9c56c086cfb5b7cfd7723c78e	514.9 kB	Preview Download
CE-BGH_2022-02-12_DE_ANALYSE.zip md5:1a14c1d4bdb2787fbb09a57d38ccd231	1.7 MB	Preview Download
CE-BGH_2022-02-12_DE_CSV_Datensatz.zip md5:6906ba0aa58f423eac0a6809f2882d1b	224.1 MB	Preview Download
CE-BGH_2022-02-12_DE_CSV_Metadaten.zip md5:d15bfb7f893a8cde3e6a80950791c017	2.7 MB	Preview Download
CE-BGH_2022-02-12_DE_PDF_Datensatz.zip md5:d0dfa351d8edcca3f7d688983d97d953	5.9 GB	Preview Download
CE-BGH_2022-02-12_DE_PDF_Entscheidungen-mit-Namen.zip md5:501c3a9ef89314b32effb14b01b7e138	585.8 MB	Preview Download
CE-BGH_2022-02-12_DE_PDF_Leitsatz-Entscheidungen.zip md5:3a283970c553dfaff39529a0344c4697	2.2 GB	Preview Download
CE-BGH_2022-02-12_DE_TXT_Datensatz.zip md5:ae54712bbe36b46fc6d3823f7abc15fe	302.7 MB	Preview Download
CE-BGH_2022-02-12_KryptographischeSignaturen.zip md5:d16dfee485373219df01282c9b0ffcd8	6.0 kB	Preview Download

Additional details

Is compiled by: Software: 10.5281/zenodo.5910138 (DOI)
Is derived from: https://www.bundesgerichtshof.de (URL)
References: Software: https://github.com/seanfobbe/ce-bgh (URL)

	All versions	This version
Views	5,196	309
Downloads	16,954	150
Data volume	1.1 TB	62.3 GB

Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)

Creators

Description

Files

CE-BGH_2022-02-12_Codebook.pdf

Files (9.3 GB)

Additional details

Related works