Info: Zenodo’s user support line is staffed on regular business days between Dec 23 and Jan 5. Response times may be slightly longer than normal.

Published November 26, 2024 | Version 1.0.0
Software Open

Source Code für 'Entscheidungen des Bundesgerichtshofs in Strafsachen aus dem 20. Jahrhundert' (BGH-Strafsachen-20Jhd)

  • 1. ROR icon Ludwig-Maximilians-Universität München
  • 2. ROR icon Leiden University

Description

Überblick

Der Datensatz Entscheidungen des Bundesgerichtshofs in Strafsachen aus dem 20. Jahrhundert (BGH-Strafsachen-20Jhd) ist eine möglichst vollständige Sammlung der durch den Bundesgerichtshof in Strafsachen getroffenen Entscheidungen vom 1. Oktober 1950 (Gründung des BGH) bis zum 1. Januar 2000, dem Zeitpunkt ab dem der BGH digitale Entscheidungen regulär veröffentlicht. 

Der Datensatz nutzt als seine Datenquelle eine vom Bundesgerichtshof den Autoren übergebene digitale Sammlung dieser Entscheidungen und bereitet diese wissenschaftlich auf. Die originalen Dateien sind hier zusammen mit dem Quellcode veröffentlicht, damit zukünftige Weiterentwicklungen darauf aufbauen können.

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen.

Aktuellster, funktionaler und zitierfähiger Release des Datensatzes: https://doi.org/10.5281/zenodo.4540377

 

Features

  • Bereinigung der Dateinamen
  • Korrektur falscher Rotationen, Standardisierung im Hochformat
  • Optische Zeichenerkennung (OCR)
  • Automatisierte Bereinigung von OCR-Fehlern mit Ersetzungstabelle
  • Extraktion zusätzlicher Variablen
  • Erstellung nutzungsfertiger ZIP-Archive
  • Umfangreiche Dokumentation
  • Automatisierte Unit Tests und statistisches Reporting
  • Kryptographische Signaturen


Ergebnisse

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

  • Der volle Datensatz im CSV-Format (mit zusätzlichen Metadaten)
  • Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungsinhalte)
  • Alle Entscheidungen im TXT-Format
  • Alle Entscheidungen im PDF-Format
  • Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)

Alle Ergebnisse werden im Ordner "output" abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt. 

 

Systemanforderungen

  • Docker
  • Docker Compose
  • 34 GB Speicherplatz auf Festplatte
  • 32 GB Arbeitsspeicher (RAM)
  • Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze).

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

Die gesamte Laufzeit auf einer AMD Ryzen 3700X CPU mit 16 Threads beträgt zwischen 30 und 40 Stunden.

 

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://github.com/seanfobbe/bgh-strafrecht

Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (files/, temp/, analysis/ und output/) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.


Schritt 2: Docker Image erstellen

Ein Docker Image stellt ein komplettes Betriebssystem mit der gesamten verwendeten Software automatisch zusammen. Nutzen Sie zur Erstellung des Images einfach:

$ bash docker-build-image.sh

 

Schritt 3: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

$ Rscript delete_all_data.R

 

Den vollständigen Datensatz kompilieren Sie mit folgendem Skript:

$ bash docker-run-project.sh

 

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

 
Persönliche Webseiten der Autor:innen

Seán Fobbe — https://www.seanfobbe.de

Tilko Swalve — https://tilkoswalve.netlify.app

 

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter der GNU General Public License v3.0 oder später. Beachten Sie bitte die Pflicht zur Weitergabe unter der gleichen Lizenz.

 

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder kontaktieren Sie mich über www.seanfobbe.de

Files

BGH-Strafsachen-20Jhd_1-0-0_CompilationReport.pdf

Files (10.5 GB)

Name Size Download all
md5:cc4895736f28274e3751e477359f95ab
3.8 GB Preview Download
md5:c64fc4027ea7ddc6d2e6a41cb542aa4f
1.6 GB Preview Download
md5:9e67fe129498400eb43b066eec99617b
1.0 GB Preview Download
md5:5bdbb7d6ff5660f99ff6f53b75c19cd0
727.2 MB Preview Download
md5:375fffe5fba61b01c0cfbe7dfb7d2b3c
775.0 MB Preview Download
md5:946da9f174b1c1b1e93e2456b1953459
853.2 MB Preview Download
md5:6738bbe517ba803d8a0380c7b9b7637d
845.9 MB Preview Download
md5:4338583938fb2ab64d03090859c97bd2
365.5 MB Preview Download
md5:772aea4d60de99a8e499f1a7a6155877
463.5 kB Preview Download
md5:83841116e85896d9255c1dc0d30500ec
6.6 kB Preview Download
md5:b849796f91693aba59a2262a0392ed20
370.2 kB Preview Download
md5:1f4ac4fb9a7a723551894020e37905aa
1.2 MB Preview Download
md5:47ddb6388ad61738da3bbb76faecf4ef
431.9 MB Preview Download

Additional details

Related works

Compiles
Dataset: 10.5281/zenodo.4540377 (DOI)

Software

Repository URL
https://github.com/SeanFobbe/bgh-strafrecht
Programming language
R
Development Status
Active