[R] Source Code des Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG-Source)

Fobbe, Sean

doi:10.5281/zenodo.6960176

Published August 7, 2022 | Version 2022-08-07

Software Open

[R] Source Code des Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG-Source)

Fobbe, Sean

Überblick

Das Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG) ist eine möglichst vollständige Sammlung der vom Bundesverwaltungsgericht veröffentlichten Entscheidungen. Der Datensatz nutzt als seine Datenquelle die Entscheidungsdatenbank des Bundesverwaltungsgerichts und wertet diese vollständig aus.

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen.

Aktuellster, funktionaler und zitierfähiger Release des Datensatzes: https://doi.org/10.5281/zenodo.3911067

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

Der volle Datensatz im CSV-Format
Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungstexte)
Alle Entscheidungen im TXT-Format (reduzierter Umfang an Metadaten)
Alle Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
Der Source Code und alle weiteren Quelldaten

Alle Ergebnisse werden im Ordner `output` abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.

Systemanforderungen

Nur mit Fedora Linux getestet. Vermutlich auch funktionsfähig unter anderen Linux-Distributionen.
6 GB Speicherplatz auf Festplatte
Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze)

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://github.com/seanfobbe/ce-bverwg

Verwenden Sie immer einen separaten und leeren Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (txt/, pdf/, temp/, analysis und output/) alle Dateien die den Datensatz verunreinigen könnten, aber auch nur dort.

Schritt 2: Installation der Programmiersprache 'R'

Sie müssen die Programmiersprache R und OpenSSL installiert haben. Normalerweise sind diese in Fedora Linux bereits enthalten, andernfalls führen Sie aus:

$ sudo dnf install R openssl

Schritt 3: Installation von 'renv'

Starten sie eine R Session in diesem Ordner, sie sollten automatisch zur Installation von renv aufgefordert werden. renv ist ein Tool zur strengen Versionskontrolle von R packages und sichert die Reproduzierbarkeit.

Schritt 4: Installation von R Packages

Um durch renv alle R packages in der benötigten Version zu installieren, führen Sie in der R session aus:

> renv::restore()  # In einer R-Konsole ausführen

Achtung: es reicht nicht, die Packages auf herkömmliche Art installiert zu haben. Sie müssen dies nochmal über renv tun, selbst wenn die Packages in der normalen Library schon vorhanden sind.

Schritt 5: Installation von LaTeX

Um die PDF Reports zu kompilieren benötigen Sie eine LaTeX -Installation. Sie können eine vollständige LaTeX -Distribution auf Fedora wie folgt installieren:

$ sudo dnf install texlive-scheme-full

Alternativ können sie das R package tinytex installieren, welches nur die benötigten LaTeX packages installiert.

> install.packages("tinytex")  # In einer R-Konsole ausführen

Die für die Referenzdatensätze verwendete LaTeX -Installation ist texlive-scheme-full.

Schritt 6: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

> source("delete_all_data.R") # In einer R-Konsole ausführen

Den vollständigen Datensatz kompilieren Sie mit folgendem Befehl:

> source("run_project.R") # In einer R-Konsole ausführen

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

Pipeline visualisieren

Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:

> targets::tar_glimpse()     # Nur Datenobjekte
> targets::tar_visnetwork()  # Alle Objekte

Troubleshooting

Hilfreiche Befehle um Fehler zu lokalisieren und zu beheben.

> tar_progress()  # Zeigt Fortschritt und Fehler an
> tar_meta()      # Alle Metadaten
> tar_meta(fields = "warnings", complete_only = TRUE)  # Warnungen
> tar_meta(fields = "error", complete_only = TRUE)  # Fehlermeldungen
> tar_meta(fields = "seconds")  # Laufzeit der Targets

Projektstruktur

Die folgende Struktur erläutert die wichtigsten Bestandteile des Projekts. Währen der Kompilierung werden weitere Ordner erstellt (`pdf/`, `txt/`, `temp/` `analysis` und `output/`). Die Endergebnisse werden alle in `output/` abgelegt.

├── pipeline.Rmd               # Zentrale Definition der Pipeline
├── config.toml                # Zentrale Konfigurations-Datei
├── R-fobbe-proto-package      # Oft verwendete Funktionen
├── _targets_packages.R        # Automatisiert erstellte Package-Liste für renv
├── buttons                    # Buttons (nur optische Bedeutung)
├── data                       # Datensätze, auf denen die Pipeline aufbaut
├── functions                  # Wichtige Schritte der Pipeline
├── gpg                        # Persönlicher Public GPG-Key für Seán Fobbe
├── renv                       # Versionskontrolle: Executables
├── renv.lock                  # Versionskontrolle: Versionsinformationen
├── reports                    # Markdown-Dateien
└── tex                        # LaTeX-Templates

Weitere Open Access Veröffentlichungen (Fobbe)

Website — www.seanfobbe.de

Open Data — zenodo.org/communities/sean-fobbe-data/

Source Code — zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen — zenodo.org/communities/sean-fobbe-publications/

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter einer MIT No Attribution (MIT-0)-Lizenz. Sie können sie frei für alle Zwecke nutzen.

Kontakt

Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

Files

CE-BVerwG_2022-08-07_CompilationReport.pdf

Files (296.8 MB)

Name	Size	Download all
CE-BVerwG_2022-08-07_CompilationReport.pdf md5:5f3eb2cb61841bdde3b067dfac21284a	455.3 kB	Preview Download
CE-BVerwG_2022-08-07_KryptographischeSignaturen.zip md5:defbf9a7f8c43b2248b85e07888bf769	6.1 kB	Preview Download
CE-BVerwG_2022-08-07_RobustnessChecks.pdf md5:1c0a3d96bac1bc62625aae1b402768e8	293.6 kB	Preview Download
CE-BVerwG_2022-08-07_Source_Code.zip md5:7138e2132f8d43b72ade7894ed0e8160	147.8 kB	Preview Download
CE-BVerwG_2022-08-07_Targets_Storage.zip md5:50d40f8906569af94d3d0cb0144d420f	295.9 MB	Preview Download

Additional details

Cites: https://www.bverwg.de/ (URL); Dataset: 10.5281/zenodo.4568682 (DOI); Dataset: 10.5281/zenodo.4569564 (DOI)
Compiles: Dataset: 10.5281/zenodo.6960173 (DOI)
Is derived from: Software: https://github.com/SeanFobbe/ce-bverwg/ (URL)

	All versions	This version
Views	1,098	245
Downloads	812	133
Data volume	56.0 GB	2.1 GB

[R] Source Code des Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG-Source)

Authors/Creators

Description

Files

CE-BVerwG_2022-08-07_CompilationReport.pdf

Files (296.8 MB)

Additional details

Related works