Info: Zenodo’s user support line is staffed on regular business days between Dec 23 and Jan 5. Response times may be slightly longer than normal.

There is a newer version of the record available.

Published March 22, 2023 | Version 2023-03-21
Software Open

[R] Source Code des Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG-Source)

Creators

Description

 

Überblick

Das Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG) ist eine möglichst vollständige Sammlung der vom Bundesverwaltungsgericht veröffentlichten Entscheidungen. Der Datensatz nutzt als seine Datenquelle die amtliche Datenbank des Bundesverwaltungsgerichts.

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen.

Aktuellster, funktionaler und zitierfähiger Release des Datensatzes: https://doi.org/10.5281/zenodo.3911067

 

Neu in Version 2023-03-21

  • Vollständige Aktualisierung der Daten
  • Gesamte Laufzeitumgebung mit Docker versionskontrolliert
  • 4 neue Variablen: BVerwGE, Leitsatz, Fachpresse und Übersetzung (jeweils binär)
  • Linguistisch annotierte Variante ist wieder verfügbar
  • Aktenzeichen aus dem Eingangszeitraum 2000 bis 2009 nun korrekt mit führender Null formatiert (z.B. 1 BvR 44/02 statt 1 BvR 44/2)
  • Aktenzeichen in Verzögerungsverfahren nun korrekt formatiert
  • Aktenzeichen verwenden nun richigerweise den Punkt als Trenner (statt den Schrägstrich wie bei anderen Gerichten)
  • Berücksichtigung von Präsident Korbmacher und Vize-Präsidentin Rublack in den jeweiligen Variablen
  • Update des Run-Skripts und des Delete-Skripts
  • Proto-Package Mono-Repo entfernt, alle Funktionen nun fest projektbasiert versionskontrolliert
  • Vereinfachung der Konfigurations-Datei
  • Neue Funktion für automatischen clean run (Löschung aller Zwischenergebnisse)
  • Update der Download-Funktion
  • Überflüssige Warnung in f.future_lingsummarize-Funktion entfernt
  • Alle Roh-Dateien werden nun im Unterordner "files" gespeichert
  • Vom BVerwG nicht veröffentlichte Entscheidungstypen im Codebook genauer beschrieben
  • Verbesserte Formatierung von Profiling, Warnungen und Fehlermeldungen im Compilation Report
  • Zusätzliche Unit-Tests
  • Verbesserung des Robustness Check Reports
  • README im Hinblick auf Docker überarbeitet

 

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

  • Der volle Datensatz im CSV-Format
  • Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungstexte)
  • (Optional) Linguistisch annotierte Fassung aller Entscheidungen im CSV-Format
  • Alle Entscheidungen im TXT-Format (reduzierter Umfang an Metadaten)
  • Alle Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
  • Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
  • Der Source Code und alle weiteren Quelldaten

Alle Ergebnisse werden im Ordner `output` abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.

 

Systemanforderungen

  • Docker
  • Docker Compose
  • 12 GB Speicherplatz auf Festplatte
  • Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze).

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

 

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://github.com/seanfobbe/ce-bverwg

Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (files/, temp/, analysis/ und output/) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.


Schritt 2: Docker Image erstellen

Ein Docker Image stellt ein komplettes Betriebssystem mit der gesamten verwendeten Software automatisch zusammen. Nutzen Sie zur Erstellung des Images einfach:

$ bash docker-build-image.sh

 

Schritt 3: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

$ Rscript delete_all_data.R

 

Den vollständigen Datensatz kompilieren Sie mit folgendem Skript:

$ bash docker-run-project.sh

 

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

 

Pipeline visualisieren

Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:

> targets::tar_glimpse()     # Nur Datenobjekte
> targets::tar_visnetwork()  # Alle Objekte


Troubleshooting

Hilfreiche Befehle, um Fehler zu lokalisieren und zu beheben.

> tar_progress()  # Zeigt Fortschritt und Fehler an
> tar_meta()      # Alle Metadaten
> tar_meta(fields = "warnings", complete_only = TRUE)  # Warnungen
> tar_meta(fields = "error", complete_only = TRUE)  # Fehlermeldungen
> tar_meta(fields = "seconds")  # Laufzeit der Targets

 

Projektstruktur
 

.
├── buttons                    # Buttons (nur optische Bedeutung)
├── CHANGELOG.md               # Alle Änderungen
├── compose.yaml               # Konfiguration für Docker
├── config.toml                # Zentrale Konfigurations-Datei
├── data                       # Datensätze, auf denen die Pipeline aufbaut
├── delete_all_data.R          # Löscht den Datensatz und Zwischenschritte
├── docker-build-image.sh      # Docker Image erstellen
├── Dockerfile                 # Definition des Docker Images
├── docker-run-project.sh      # Docker Image und Datensatz kompilieren
├── functions                  # Wichtige Schritte der Pipeline
├── gpg                        # Persönlicher Public GPG-Key für Seán Fobbe
├── old                        # Alter Code aus früheren Versionen
├── pipeline.Rmd               # Zentrale Definition der Pipeline
├── README.md                  # Bedienungsanleitung
├── reports                    # Markdown-Dateien
├── requirements-python.txt    # Benötigte Python packages
├── requirements-R.R           # Benötigte R packages
├── requirements-system.txt    # Benötigte system dependencies
├── run_project.R              # Kompiliert den gesamten Datensatz
└── tex                        # LaTeX-Templates

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  https://zenodo.org/communities/sean-fobbe-data/

Source Code  —  https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  https://zenodo.org/communities/sean-fobbe-publications/

 

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter einer MIT No Attribution (MIT-0)-Lizenz. Sie können sie frei für alle Zwecke nutzen.

 

Kontakt

Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

 

Files

CE-BVerwG_2023-03-21_CompilationReport.pdf

Files (677.4 MB)

Name Size Download all
md5:fe725611caf36cd698791d30f7105f83
462.5 kB Preview Download
md5:e6d9a71892ce750a5e5c651b600744ca
6.1 kB Preview Download
md5:06eba00a4c8879887471f8c690190e58
358.5 kB Preview Download
md5:09748f8ca5cd82912b83958660a0ec4a
880.0 kB Preview Download
md5:a91462fe8990d1e481fb43c3a72d6706
675.7 MB Preview Download

Additional details

Related works

Cites
https://www.bverwg.de/ (URL)
Dataset: 10.5281/zenodo.4568682 (DOI)
Dataset: 10.5281/zenodo.4569564 (DOI)
Compiles
Dataset: 10.5281/zenodo.7749683 (DOI)
Is derived from
Software: https://github.com/SeanFobbe/ce-bverwg/ (URL)