Source Code des 'Corpus der Entscheidungen des Bundespatentgerichts' (CE-BPatG-Source)
Description
Überblick
Das Corpus der Entscheidungen des Bundespatentgerichts (CE-BPatG) ist eine möglichst vollständige Sammlung der vom Bundespatentgericht veröffentlichten Entscheidungen. Der Datensatz nutzt als seine Datenquelle die Entscheidungsdatenbank des Bundespatentgerichts und wertet diese vollständig aus.
Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen.
Die neueste Version des Datensatzes ist immer über den Link der Concept DOI erreichbar: https://doi.org/10.5281/zenodo.3954850
NEU in Version 2023-04-02
- Vollständige Aktualisierung der Daten
- Gesamte Laufzeitumgebung mit Docker versionskontrolliert
- Aktenzeichen aus dem Eingangszeitraum 2000 bis 2009 nun korrekt mit führender Null formatiert (z.B. 1 BvR 44/02 statt 1 BvR 44/2)
- Vereinfachung der Konfigurationsdatei
- Run- und Delete-Skripte aktualisiert
- Neue Funktion für automatischen clean run (Löschung aller Zwischenergebnisse)
- Neuorganisation des Repositories
- Inhalt des ZIP-Archivs mit dem Source Code orientiert sich nun an der Versionskontrolle mit Git und enthält auch die gesamte Git-Historie
- Proto-Package Mono-Repo entfernt, alle Funktionen nun fest projektbasiert versionskontrolliert
- Update der Download-Funktion
- Überflüssige Warnung in f.future_lingsummarize-Funktion entfernt
- Zusätzliche Unit-Tests
- Alle Roh-Dateien werden nun im Ordner "files/" gespeichert
- Verbesserung des Robustness Check Reports
- Verbesserung des Codebooks
- Alle Diagramme neu nummeriert
- Verbesserte Formatierung von Profiling, Warnungen und Fehlermeldungen im Compilation Report
- README im Hinblick auf Docker überarbeitet
- Alle Zwischenergebnisse der Pipeline werden automatisch im Ordner "output/" archiviert
- Umfang der Datenbankabfrage ist nun vollständig automatisiert
- Zwischenergebnisse werden im qs-Format gespeichert um Speicherplatz zu sparen
Funktionsweise
Primäre Endprodukte des Skripts sind folgende ZIP-Archive:
- Der volle Datensatz im CSV-Format
- Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungstexte)
- Alle Entscheidungen im TXT-Format (reduzierter Umfang an Metadaten)
- Alle Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
- Nur Leitsatz-Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
- Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
- Der Source Code und alle weiteren Quelldaten
Alle Ergebnisse werden im Ordner 'output' abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.
Systemanforderungen
- Docker
- Docker Compose
- 12 GB Speicherplatz auf Festplatte
- Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze).
In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.
Anleitung
Schritt 1: Ordner vorbereiten
Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:
$ git clone https://github.com/seanfobbe/ce-bpatg
Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (files/, temp/, analysis/ und output/) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.
Schritt 2: Docker Image erstellen
Ein Docker Image stellt ein komplettes Betriebssystem mit der gesamten verwendeten Software automatisch zusammen. Nutzen Sie zur Erstellung des Images einfach:
$ bash docker-build-image.sh
Schritt 3: Datensatz kompilieren
Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:
$ Rscript delete_all_data.R
Den vollständigen Datensatz kompilieren Sie mit folgendem Skript:
$ bash docker-run-project.sh
Ergebnis
Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.
Pipeline visualisieren
Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:
> targets::tar_glimpse() # Nur Datenobjekte
> targets::tar_visnetwork() # Alle Objekte
Troubleshooting
Hilfreiche Befehle, um Fehler zu lokalisieren und zu beheben.
> tar_progress() # Zeigt Fortschritt und Fehler an
> tar_meta() # Alle Metadaten
> tar_meta(fields = "warnings", complete_only = TRUE) # Warnungen
> tar_meta(fields = "error", complete_only = TRUE) # Fehlermeldungen
> tar_meta(fields = "seconds") # Laufzeit der Targets
Projektstruktur
.
├── buttons # Buttons (nur optische Bedeutung)
├── CHANGELOG.md # Alle Änderungen
├── compose.yaml # Konfiguration für Docker
├── config.toml # Zentrale Konfigurations-Datei
├── data # Datensätze, auf denen die Pipeline aufbaut
├── delete_all_data.R # Löscht den Datensatz und Zwischenschritte
├── docker-build-image.sh # Docker Image erstellen
├── Dockerfile # Definition des Docker Images
├── docker-run-project.sh # Docker Image und Datensatz kompilieren
├── functions # Wichtige Schritte der Pipeline
├── gpg # Persönlicher Public GPG-Key für Seán Fobbe
├── old # Alter Code aus früheren Versionen
├── pipeline.Rmd # Zentrale Definition der Pipeline
├── README.md # Bedienungsanleitung
├── reports # Markdown-Dateien
├── requirements-python.txt # Benötigte Python packages
├── requirements-R.R # Benötigte R packages
├── requirements-system.txt # Benötigte system dependencies
├── run_project.R # Kompiliert den gesamten Datensatz
└── tex # LaTeX-Templates
Weitere Open Access Veröffentlichungen (Fobbe)
Website — www.seanfobbe.de
Open Data — https://zenodo.org/communities/sean-fobbe-data/
Source Code — https://zenodo.org/communities/sean-fobbe-code/
Volltexte regulärer Publikationen — https://zenodo.org/communities/sean-fobbe-publications/
Urheberrecht
Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter einer MIT No Attribution (MIT-0)-Lizenz. Sie können sie frei für alle Zwecke nutzen.
Kontakt
Fehler gefunden? Anregungen? Kommentieren Sie gerne im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de
Files
CE-BPatG_2023-04-02_CompilationReport.pdf
Files
(438.9 MB)
Name | Size | Download all |
---|---|---|
md5:3ee5f354d4857b03501e972b708df2a4
|
449.3 kB | Preview Download |
md5:1848357056ce82c12e9f56b0edaf4130
|
6.2 kB | Preview Download |
md5:b7364bcaa5fad3f61b5eb55a82d3da36
|
363.3 kB | Preview Download |
md5:71510fe1f5ee34816d8a844f43a074f8
|
847.7 kB | Preview Download |
md5:5e0ad15a73689d5d9e4278c57f71149b
|
437.2 MB | Preview Download |
Additional details
Related works
- Cites
- https://www.bundespatentgericht.de/ (URL)
- Compiles
- Dataset: 10.5281/zenodo.7767295 (DOI)
- Is derived from
- Software: https://github.com/SeanFobbe/ce-bpatg (URL)