Source Code des 'Corpus der Entscheidungen des Bundesfinanzhofs (CE-BFH)'

Fobbe, Seán

doi:10.5281/zenodo.14622342

Published January 15, 2025 | Version 2025-01-14

Software Open

Source Code des 'Corpus der Entscheidungen des Bundesfinanzhofs (CE-BFH)'

Fobbe, Seán¹

1. Ludwig-Maximilians-Universität München

Überblick

Das Corpus der Entscheidungen des Bundesfinanzhofs (CE-BFH) ist eine möglichst vollständige Sammlung der vom Bundesfinanzhof (BFH) veröffentlichten Entscheidungen. Der Datensatz nutzt als seine Datenquelle die amtliche Entscheidungsdatenbank des Bundesfinanzhofs und wertet diese vollständig aus.

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen.

Lesen Sie bitte zuerst den Compilation Report! Dieser enthält den Source Code für die gesamte Pipeline, relevante Rechenergebnisse, alle Diagramme, Zeitstempel, sowie ein detailliertes und klickbares Inhaltsverzeichnis. Sie werden sich auf diese Weise viel schneller im eigentlichen Source Code zurechtfinden.

Aktuellster, funktionaler und zitierfähiger Release des Datensatzes: https://doi.org/10.5281/zenodo.7691840

Aktualisierung

Dieser Datensatz wird 1-2 mal im Jahr aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org

NEU in Version 2025-01-14

Vollständige Aktualisierung der Daten
LIZENZÄNDERUNG: Source Code jetzt unter GNU General Public License Version 3 (GPLv3) oder später lizenziert
NEU: Zitationsnetzwerk des BFH von Aktenzeichen-zu-Aktenzeichen und Aktenzeichen-zu-BFHE als GraphML mit vielen Metadaten
NEU: Option für Clean Runs in Konfiguration eingefügt (löscht alle Daten vor dem eigentlichen Run)
NEU: Test auf geringen oder fehlenden Text-Inhalt
NEU: Automatische Archivierung der Zwischenergebnisse in der Pipeline als ZIP-Archiv
Docker Image auf R 4.4.0 aktualisiert (wegen CVE-2024-27322)
Expliziter R Package Version Lock für 2024-06-13 (CRAN Date)
Überarbeitung des Dockerfiles
Überarbeitung der Dokumentation zu den Varianten des Datensatzes
Vereinheitlichung der Komponenten für PDF-Extraktion, linguistische Statistiken und Berechnung kryptographischer Hashes
Vereinfachung der Run-Skripte und stärkere Integration mit Docker Compose
Erweiterung des Lösch-Skriptes
Docker Zeitzone auf Berlin eingestellt
Entfernung der Nummerierung von Diagrammen
Entfernung der Tesseract Dependencies
Entfernung der Python Toolchain
Aktualisierung des Public GPG Keys im Repository

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

Der volle Datensatz im CSV-Format (mit zusätzlichen Metadaten)
Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungsinhalte)
Alle Entscheidungen im HTML-Format
Das interne Zitationsnetzwerk des BFH (Aktenzeichen-zu-Aktenzeichen und Aktenzeichen-zu-BFHE) im GraphML-Format
Alle Entscheidungen im TXT-Format
Alle Entscheidungen im PDF-Format
Nur V-Entscheidungen (BFHE, amtliche Sammlung) im PDF-Format
Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)

Alle Ergebnisse werden im Ordner output/ abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.

Systemanforderungen

Docker
Docker Compose
6 GB Speicherplatz auf Festplatte
Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze).

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://github.com/seanfobbe/ce-bfh

Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (files/, temp/, analysis/ und output/) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.

Schritt 2: Docker Image erstellen

Ein Docker Image stellt ein komplettes Betriebssystem mit der gesamten verwendeten Software automatisch zusammen. Nutzen Sie zur Erstellung des Images einfach:

$ bash docker-build-image.sh

Schritt 3: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

$ Rscript delete_all_data.sh

Den vollständigen Datensatz kompilieren Sie mit folgendem Skript:

$ bash docker-run-project.sh

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

Pipeline visualisieren

Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:

> targets::tar_glimpse() # Nur Datenobjekte

> targets::tar_visnetwork() # Alle Objekte

Troubleshooting

Hilfreiche Befehle, um Fehler zu lokalisieren und zu beheben.

> tar_progress() # Zeigt Fortschritt und Fehler an

> tar_meta() # Alle Metadaten

> tar_meta(fields = "warnings", complete_only = TRUE) # Warnungen

> tar_meta(fields = "error", complete_only = TRUE) # Fehlermeldungen

> tar_meta(fields = "seconds") # Laufzeit der Targets

Weitere Open Access Veröffentlichungen (Fobbe)

Website — www.seanfobbe.de

Open Data — https://zenodo.org/communities/sean-fobbe-data/

Source Code — https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen — https://zenodo.org/communities/sean-fobbe-publications/

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter der GNU General Public License v3.0 oder später.

Kontakt

Fehler gefunden? Anregungen? Kommentieren Sie gerne im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

Files

CE-BFH_2025-01-14_CompilationReport.pdf

Files (176.0 MB)

Name	Size	Download all
CE-BFH_2025-01-14_CompilationReport.pdf md5:0ac125aa45ddbe130e6aa12bd4018028	448.6 kB	Preview Download
CE-BFH_2025-01-14_KryptographischeSignaturen.zip md5:0432cc763c4ead02d1546839a68b6aa9	6.5 kB	Preview Download
CE-BFH_2025-01-14_QualityAssurance.pdf md5:bdc5d78074187bd6bb473bfd9a3f334e	13.0 MB	Preview Download
CE-BFH_2025-01-14_Source_Code.zip md5:300d154a3e6293364820e2fa31b16982	2.1 MB	Preview Download
CE-BFH_2025-01-14_Targets_Storage.zip md5:bcbccc9cf5a93860977b656c754ae878	160.4 MB	Preview Download

Additional details

Cites: Software: https://github.com/SeanFobbe/ce-bfh (URL); Dataset: https://www.bundesfinanzhof.de/ (URL)
Compiles: Dataset: 10.5281/zenodo.14622341 (DOI)

Repository URL: https://github.com/SeanFobbe/ce-bfh
Programming language: R
Development Status: Active

	All versions	This version
Views	1,713	455
Downloads	444	218
Data volume	10.5 GB	5.8 GB

Source Code des 'Corpus der Entscheidungen des Bundesfinanzhofs (CE-BFH)'

Creators

Description

Überblick

Aktualisierung

NEU in Version 2025-01-14

Funktionsweise

Systemanforderungen

Anleitung

Schritt 1: Ordner vorbereiten

Schritt 2: Docker Image erstellen

Schritt 3: Datensatz kompilieren

Ergebnis

Pipeline visualisieren

Troubleshooting

Weitere Open Access Veröffentlichungen (Fobbe)

Urheberrecht

Kontakt

Files

CE-BFH_2025-01-14_CompilationReport.pdf

Files (176.0 MB)

Additional details

Related works

Software