There is a newer version of the record available.

Published August 24, 2022 | Version 2022-08-24
Software Open

[R] Source Code des Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG-Source)

  • 1. Ludwig-Maximilians-Universität München

Description

 

Überblick

Dieses R-Skript lädt alle auf www.bundesverfassungsgericht.de verfügbaren Entscheidungen des Bundesverfassungsgerichts (BVerfG) herunter und verarbeitet sie in einen reichhaltigen menschen- und maschinenlesbaren Korpus. Es ist die Basis für den Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG).

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem persistenten Digital Object Identifier (DOI) versehen. Die neueste Version des Datensatzes ist immer über den Link der Concept DOI erreichbar: https://doi.org/10.5281/zenodo.3902658

Alle die Corona-Pandemie betreffenden Entscheidungen des Bundesverfassungsgerichts finden Sie zusätzlich separat dokumentiert und analysiert im Datensatz Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona).

Das CE-BVerfG sollte nicht mit dem Corpus der amtlichen Entscheidungssammlung des Bundesverfassungsgerichts (C-BVerfGE) verwechselt werden. Letzterer zielt nur auf eine Abbildung der amtlichen Sammlung ab und ist deutlich kleiner.

 

NEU in Version 2022-08-24

  • Vollständige Aktualisierung der Daten
  • Neuentwurf das gesamten Source Codes im {targets} framework
  • Entfernung von englischen Zusammenfassungen aus dem Korpus
  • Vielzahl zusätzlicher Unit Tests
  • Zusätzliche Variablen mit URLs zu originalen HTML- und PDF-Dateien
  • Variante mit linguistischen Annotationen temporär nicht mehr verfügbar
  • Robustness Checks sind nun in einem separaten Bericht dokumentiert
  • Frequenztabellen-Test berücksichtigt nun alle Variablen
  • Neues Diagramm: Visualisierung von Kompilierungs-Prozess
  • Diagramme sind in neuer Reihenfolge nummeriert, um die Reihenfolge im Codebook abzubilden

 

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

  • Der volle Datensatz im CSV-Format
  • Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungstexte)
  • (Optional) Tokenisierte Form aller Texte mit linguistischen Annotationen im CSV-Format
  • Alle Entscheidungen im HTML-Format
  • Alle Entscheidungen im TXT-Format (reduzierter Umfang an Metadaten)
  • Alle Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
  • Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
  • Der Source Code und alle weiteren Quelldaten

Alle Ergebnisse werden im Ordner `output` abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.

 

Systemanforderungen

  • Nur mit Fedora Linux getestet. Vermutlich auch funktionsfähig unter anderen Linux-Distributionen.
  • 4 GB Speicherplatz auf Festplatte
  • Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze)

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

 

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://github.com/seanfobbe/ce-bverfg

Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (`txt/`, `pdf/`, `temp/`, `analysis` und `output/`) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.

 

Schritt 2: Installation der Programmiersprache 'R'

Sie müssen die Programmiersprache R und OpenSSL installiert haben. Normalerweise sind diese in Fedora Linux bereits enthalten, andernfalls führen Sie aus:

$ sudo dnf install R openssl

 

Schritt 3: Installation von 'renv'

Starten sie eine R Session in diesem Ordner, sie sollten automatisch zur Installation von renv aufgefordert werden. renv ist ein Tool zur strengen Versionskontrolle von R packages und sichert die Reproduzierbarkeit.

 

Schritt 4: Installation von R Packages

Um durch renv alle R packages in der benötigten Version zu installieren, führen Sie in der R session aus:

> renv::restore()  # In einer R-Konsole ausführen

Achtung: es reicht nicht, die Packages auf herkömmliche Art installiert zu haben. Sie müssen dies nochmal über renv tun, selbst wenn die Packages in der normalen Library schon vorhanden sind.

 

Schritt 5: Installation von LaTeX

Um die PDF Reports zu kompilieren benötigen Sie eine LaTeX -Installation. Sie können eine vollständige LaTeX -Distribution auf Fedora wie folgt installieren:

$ sudo dnf install texlive-scheme-full

 

Alternativ können sie das R package tinytex installieren, welches nur die benötigten LaTeX packages installiert.

> install.packages("tinytex")  # In einer R-Konsole ausführen

Die für die Referenzdatensätze verwendete LaTeX -Installation ist texlive-scheme-full.

 

Schritt 6: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

> source("delete_all_data.R") # In einer R-Konsole ausführen


Den vollständigen Datensatz kompilieren Sie mit folgendem Befehl:

> source("run_project.R") # In einer R-Konsole ausführen

 

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

 

Pipeline visualisieren

Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:

> targets::tar_glimpse()     # Nur Datenobjekte
> targets::tar_visnetwork()  # Alle Objekte


Troubleshooting

Hilfreiche Befehle, um Fehler zu lokalisieren und zu beheben.

> tar_progress()  # Zeigt Fortschritt und Fehler an
> tar_meta()      # Alle Metadaten
> tar_meta(fields = "warnings", complete_only = TRUE)  # Warnungen
> tar_meta(fields = "error", complete_only = TRUE)  # Fehlermeldungen
> tar_meta(fields = "seconds")  # Laufzeit der Targets

 

Projektstruktur
 

.
├── buttons                    # Buttons (nur optische Bedeutung)
├── CHANGELOG.md               # Alle Änderungen
├── config.toml                # Zentrale Konfigurations-Datei
├── data                       # Datensätze, auf denen die Pipeline aufbaut
├── delete_all_data.R          # Löscht den Datensatz und Zwischenschritte
├── functions                  # Wichtige Schritte der Pipeline
├── gpg                        # Persönlicher Public GPG-Key für Seán Fobbe
├── old                        # Alter Code aus der Vorversion
├── pipeline.Rmd               # Zentrale Definition der Pipeline
├── README.md                  # Bedienungsanleitung
├── renv                       # Versionskontrolle: Executables
├── renv.lock                  # Versionskontrolle: Versionsinformationen
├── reports                    # Markdown-Dateien
├── R-fobbe-proto-package      # deprecated
├── run_project.R              # Kompiliert den gesamten Datensatz
├── _targets_packages.R        # Versionskontrolle: Packages in targets
└── tex                        # LaTeX-Templates

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  https://zenodo.org/communities/sean-fobbe-data/

Source Code  —  https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  https://zenodo.org/communities/sean-fobbe-publications/

 

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter einer MIT No Attribution (MIT-0)-Lizenz. Sie können sie frei für alle Zwecke nutzen.

 

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

 

Files

CE-BVerfG_2022-08-24_CompilationReport.pdf

Files (322.5 MB)

Name Size Download all
md5:b66b30adbb922e983769ebd65a07c6fa
530.0 kB Preview Download
md5:6fb941bfa96807f52169fc405d7e8308
6.3 kB Preview Download
md5:c1a3261bdf93db48e03cb51d4645b9a5
394.9 kB Preview Download
md5:db0f93d952edbe34747901bac61fe11b
150.9 kB Preview Download
md5:9ec37cf02b35b0c452d7069f8f86639f
321.5 MB Preview Download

Additional details

Related works

Compiles
Dataset: 10.5281/zenodo.7011305 (DOI)
Is derived from
Software: https://github.com/SeanFobbe/ce-bverfg (URL)
References
https://www.bundesverfassungsgericht.de (URL)