There is a newer version of this record available.

Software Open Access

[R] Source Code des Corpus des Deutschen Bundesrechts (C-DBR-Source)

Fobbe, Sean

 

Überblick

Dieses Skript wertet das amtliche Internetangebot Gesetze im Internet der Bundesrepublik Deutschland vollständig aus und ist die Grundlage des Corpus des Deutschen Bundesrechts (C-DBR).

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen. Die neueste Version des Datensatzes ist zusätzlich immer über den Link der Concept DOI erreichbar: https://doi.org/10.5281/zenodo.3832111

Lesen Sie bitte zuerst den Compilation Report! Dieser enthält den gesamten R Source Code, relevante Rechenergebnisse, alle Diagramme, Zeitstempel, sowie ein detailliertes und klickbares Inhaltsverzeichnis. Sie werden sich auf diese Weise viel schneller im eigentlichen Source Code zurechtfinden.

 

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

  1. Der volle Datensatz im CSV-Format, unterteilt in Einzelnormen; nur Rechtsakte mit veröffentlichtem Normtext sind erfasst
  2. Die Metadaten aller Einzelnormen im CSV-Format (wie 1, nur ohne Normtexte)
  3. Der volle Datensatz im CSV-Format, unterteilt in Rechtsakte; nur Rechtsakte mit veröffentlichtem Normtext sind erfasst
  4. Die Metadaten aller Rechtsakte im CSV-Format (wie 3, nur ohne Normtexte)
  5. Die Metadaten aller auf »Gesetze im Internet« als XML veröffentlichten Rechtsakte, im CSV-Format, unabhängig davon ob sie Normtext enthalten oder nicht
  6. Der volle Datensatz im XML-Format, unterteilt in Rechtsakte; Grundlage für die CSV-Varianten
  7. Alle Anlagen zu den XML-Dateien im jeweiligen Original-Format
  8. Alle Rechtstexte im TXT-Format, unterteilt in Rechtsakte (deutlich reduzierter Umfang an Metadaten)
  9. Alle Rechtstexte im PDF-Format, unterteilt in Rechtsakte (deutlich reduzierter Umfang an Metadaten)
  10. Alle Rechtstexte im EPUB-Format, unterteilt in Gesetze (deutlich reduzierter Umfang an Metadaten)
  11. Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
  12. Netzwerk-Strukturen (Adjazenzmatrizen, Edgelists, GraphML, und Netzwerk-
    Diagramme) für alle Rechtsakte (experimentell!)

Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt. Die Analyse-Ergebnisse werden zum Ende hin nicht gelöscht, damit sie für die Codebook-Erstellung verwendet werden können.

Weiterhin kann optional ein PDF-Bericht erstellt werden (siehe unter »Kompilierung«).

 

Systemanforderungen

Das Skript in seiner veröffentlichten Form kann nur unter Linux ausgeführt werden, da es Linux-spezifische Optimierungen (z.B. Fork Cluster) und Shell-Kommandos (z.B. OpenSSL) nutzt. Das Skript wurde unter Fedora Linux entwickelt und getestet. Die zur Kompilierung benutzte Version entnehmen Sie bitte dem sessionInfo()-Ausdruck am Ende des Compilation Reports.

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Wenn die Anzahl Threads (Variable »fullCores«) auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

Auf der Festplatte sollten 8 GB Speicherplatz vorhanden sein.

Um die PDF-Berichte kompilieren zu können benötigen Sie das R package rmarkdown, eine vollständige Installation von LaTeX und alle in der Präambel-TEX-Datei angegebenen LaTeX Packages.

 

Kompilierung: Vorbemerkungen

Mit der Funktion render() von rmarkdown können der vollständige Datensatz und das Codebook kompiliert und die Skripte mitsamt ihrer Rechenergebnisse in ein gut lesbares PDF-Format überführt werden.

Alle Kommentare sind im roxygen2-Stil gehalten. Die beiden Skripte können daher auch ohne render() regulär als R-Skripte ausgeführt werden. Es wird in diesem Fall kein PDF-Bericht erstellt und Diagramme werden nicht abgespeichert.

 

Kompilierung: Datensatz

Um den vollständigen Datensatz zu kompilieren und einen PDF-Bericht zu erstellen, kopieren Sie bitte alle im Source-Archiv bereitgestellten Dateien in einen leeren Ordner und führen mit R diesen Befehl aus:

rmarkdown::render(input = "C-DBR_Source_CorpusCreation.R",
                  output_file = paste0("C-DBR_",
                                       Sys.Date(),
                                       "_CompilationReport.pdf"),
                  envir = new.env())

 

Kompilierung: Codebook

Um das Codebook zu kompilieren und einen PDF-Bericht zu erstellen, führen Sie bitte im Anschluss an die Kompilierung des Datensatzes (!) untenstehenden Befehl mit R aus.

Bei der Prüfung der GPG-Signatur wird ein Fehler auftreten und im Codebook dokumentiert, weil die Daten nicht mit meiner Original-Signatur versehen sind. Dieser Fehler hat jedoch keine Auswirkungen auf die Funktionalität und hindert die Kompilierung nicht.

 

rmarkdown::render(input = "C-DBR_Source_CodebookCreation.R",
                  output_file = paste0("C-DBR_",
                                       Sys.Date(),
                                       "_Codebook.pdf"),
                  envir = new.env())

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  https://zenodo.org/communities/sean-fobbe-data/

Source Code  —  https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  https://zenodo.org/communities/sean-fobbe-publications/

 

Urheberrecht: MIT-0

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter einer MIT No Attribution-Lizenz (MIT-0). Sie können sie frei für alle Zwecke nutzen.

 

Kontakt

Fehler gefunden? Anregungen? Kommentieren Sie gerne im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

 

Files (949.8 kB)
Name Size
C-DBR_2021-09-16_CompilationReport.pdf
md5:57cc7a23a6ad3b260bc0a7eac536edc1
886.8 kB Download
C-DBR_2021-09-16_KryptographischeSignaturen.zip
md5:be83c50ae8f2ae31b4ecab023d36b0dc
6.7 kB Download
C-DBR_2021-09-16_Source_Code.zip
md5:260dc72bb935026eb66f271076e3d6f6
56.3 kB Download
777
347
views
downloads
All versions This version
Views 777130
Downloads 34752
Data volume 221.3 MB38.5 MB
Unique views 704125
Unique downloads 29143

Share

Cite as