Published July 24, 2024 | Version 2024-07-24
Software Open

[R] Source Code des Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG-Source)

  • 1. Ludwig-Maximilians-Universität München

Description

 

Überblick

Dieses R-Skript lädt alle auf www.bundesverfassungsgericht.de verfügbaren Entscheidungen des Bundesverfassungsgerichts (BVerfG) herunter und verarbeitet sie in einen reichhaltigen menschen- und maschinenlesbaren Korpus. Es ist die Basis für den Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG).

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem persistenten Digital Object Identifier (DOI) versehen. Die neueste Version des Datensatzes ist immer über den Link der Concept DOI erreichbar: https://doi.org/10.5281/zenodo.3902658

Alle die Corona-Pandemie betreffenden Entscheidungen des Bundesverfassungsgerichts finden Sie zusätzlich separat dokumentiert und analysiert im Datensatz Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona).

Das CE-BVerfG sollte nicht mit dem Corpus der amtlichen Entscheidungssammlung des Bundesverfassungsgerichts (C-BVerfGE) verwechselt werden. Letzterer zielt nur auf eine Abbildung der amtlichen Sammlung ab und ist deutlich kleiner.

 

NEU in Version 2024-07-24

  • LIZENZÄNDERUNG: Source Code jetzt unter GNU General Public License Version 3 (GPLv3) oder später lizenziert
  • NEU: Zitationsnetzwerke BVerfGE-zu-BVerfGE, BVerfGE-zu-Aktenzeichen und Aktenzeichen-zu-Aktenzeichen als GraphML
  • Neue Variable "bverfge": TRUE/FALSE, ob eine Entscheidung in der BVerfGE enthalten ist
  • Vollständige Aktualisierung der Daten
  • Amtliche Sammlung bis inklusive Band 164 mit Name, Band und Seite versehen
  • Die Pipeline mit allen Zwischenergebnissen wird nun automatisch in "output/" archiviert
  • R-Version auf 4.4.0 aktualisiert (wegen CVE-2024-27322)
  • Python Toolchain aktualisiert
  • Vereinfachung der Repository-Struktur mit Ordner etc/ für Config Files
  • Anpassung Docker Compose an Debian 11
  • Docker Zeitzone auf Berlin eingestellt
  • Aktualisierung von Public GPG Key im Repository
  • Zusätzliches Lösch-Skript mit Docker-Integration
  • Neuer Test auf Vollständigkeit der Dokumentation von Variablen im Codebook
  • Viele neue Tests zur Sicherung der Datenqualität des finalen tabellarischen Datensatzes
  • Vollständigkeit der Datenbankabfrage wird nun alle 3 Tage automatisch überprüft
  • Diagramme nicht mehr nummeriert, sondern nach Typ sortiert

 

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

  • Der volle Datensatz im CSV-Format
  • Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungstexte)
  • Zitationsnetzwerk des BVerfG im GraphML-Format
  • (Optional) Tokenisierte Form aller Texte mit linguistischen Annotationen im CSV-Format
  • Alle Entscheidungen im HTML-Format
  • Alle Entscheidungen im TXT-Format (reduzierter Umfang an Metadaten)
  • Alle Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
  • Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
  • Der Source Code und alle weiteren Quelldaten

Alle Ergebnisse werden im Ordner `output` abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.

 

Systemanforderungen

  • Docker
  • Docker Compose
  • 5 GB Speicherplatz auf Festplatte
  • Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze).

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

 

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://github.com/seanfobbe/ce-bverfg

Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (files/, temp/, analysis/ und output/) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.

 


Schritt 2: Docker Image erstellen

Ein Docker Image stellt ein komplettes Betriebssystem mit der gesamten verwendeten Software automatisch zusammen. Nutzen Sie zur Erstellung des Images einfach:

$ bash docker-build-image.sh


 

Schritt 3: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

$ Rscript delete_all_data.R

 

Den vollständigen Datensatz kompilieren Sie mit folgendem Skript:

$ bash docker-run-project.sh

 

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

 

Pipeline visualisieren

Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:

> targets::tar_glimpse()     # Nur Datenobjekte
> targets::tar_visnetwork()  # Alle Objekte


Troubleshooting

Hilfreiche Befehle, um Fehler zu lokalisieren und zu beheben.

> tar_progress()  # Zeigt Fortschritt und Fehler an
> tar_meta()      # Alle Metadaten
> tar_meta(fields = "warnings", complete_only = TRUE)  # Warnungen
> tar_meta(fields = "error", complete_only = TRUE)  # Fehlermeldungen
> tar_meta(fields = "seconds")  # Laufzeit der Targets

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  https://zenodo.org/communities/sean-fobbe-data/

Source Code  —  https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  https://zenodo.org/communities/sean-fobbe-publications/

 

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter der GNU General Public License v3.0 oder später. Beachten Sie bitte die Pflicht zur Weitergabe unter der gleichen Lizenz.

 

Kontakt

Fehler gefunden? Anregungen? Notieren Sie diese bitte im Issue Tracker auf GitHub.

 

Files

CE-BVerfG_2024-07-24_CompilationReport.pdf

Files (354.5 MB)

Name Size Download all
md5:5e6891987168ffe5493345516f94ab7f
543.7 kB Preview Download
md5:a4d624c69fb3eb5c1cc1ee011378b37c
6.5 kB Preview Download
md5:5b401606f2d3d142193f5f3f3bd77399
5.5 MB Preview Download
md5:e7f299262ca98d1173b5543ab06bc237
268.0 kB Preview Download
md5:c2fefffd7c1dd5131306b5d746e5fa79
348.2 MB Preview Download

Additional details

Related works

Compiles
Dataset: 10.5281/zenodo.12705674 (DOI)
Is derived from
Software: https://github.com/SeanFobbe/ce-bverfg (URL)
References
https://www.bundesverfassungsgericht.de (URL)

Software

Repository URL
https://github.com/SeanFobbe/ce-bverfg
Programming language
R
Development Status
Active