Published May 24, 2025 | Version 2025-05-24
Dataset Open

Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT)

Creators

Description

Überblick

Das Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT) ist einer der größten, frei verfügbaren Datensätze von Plenarprotokollen des Deutschen Bundestages. Er ist eine Zusammenstellung aller Plenarprotokolle von der 1. Wahlperiode bis zur aktuellsten 21. Wahlperiode die im XML-Format auf dem Open Data Portal des Deutschen Bundestages und dem Dokumentations- und Informationssystem für parlamentarische Materialien (DIP) bis zum jeweiligen Stichtag veröffentlicht waren.

Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die TXT-Sammlung. Parquet-Dateien sind für Big Data-Anwendungen verfügbar.

Der CPP-BT ist der Zwillings-Korpus des Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT) Durch die Verbindung beider Korpora können Sie Plenarprotokolle und Drucksachen — und damit alle Vorgänge des Bundestages — in einheitlichen Analysen untersuchen.

 

Aktualisierung

Dieser Datensatz wird mehrmals pro Wahlperiode aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org

 

NEU in Version 2025-05-24

  • Vollständige Aktualisierung der Daten (bis einschließlich aktuellste Wahlperiode)
  • Neukonzeptionierung des Datensatzes als deklarative {targets} Pipeline
  • Wichtige Änderung: Variable "nummer_original" zu "protokoll_nr" umbenannt
  • Wichtige Änderung: Variable "datum" zu "sitzung_datum" umbenannt
  • Neues Feature: Alle Einzelreden des Bundestages in tabellarischem Format mit vielen neuen Metadaten verfügbar (ab 18. Wahlperiode)
  • Neues Feature: Datensatz im Parquet-Format verfügbar
  • Neues Feature: Zusätzlicher Bericht zur Qualitätskontrolle
  • Inhaltiche Erweiterung und Verbesserung der TXT-Variante
  • Viele zusätzliche Tests zur Qualitätsprüfung
  • Pipeline ruft automatisch die tagesaktuell neuesten Bundestagsprotokolle ab (API Key notwendig)
  • Pipeline speichert viele Checkpoints und kann jederzeit unterbrochen und fortgesetzt werden
  • Delta Updates möglich
  • Grundlegende Überarbeitung des Codebooks

 

Features

  • Insgesamt bis zu 35 Variablen in der CSV-Variante
  • Plenarprotokolle von der 1. Wahlperiode bis zur neuesten Wahlperiode am Stichtag
  • Aufteilung in Einzelreden u.a. mit ID, Name, Fraktion und Amt der Redner:in (ab 18. Wahlperiode)
  • Aufteilung in Protokollbestandteile: Inhaltsverzeichnis, Sitzungsverlauf, Anlagen, Rednerliste (ab 18. Wahlperiode)
  • Fortlaufende Aktualisierung (Datensatz kann zusätzlich via Pipeline täglich aktualisiert werden)
  • Urheberrechtsfreiheit
  • Offene und plattformunabhängige Formate (PDF, TXT, CSV, XML, Parquet)
  • Linguistische Kennzahlen
  • Umfangreiches Codebook
  • Compilation Report, um den Erstellungs-Prozess zu erläutern
  • Dutzende Diagramme und Tabellen für alle Zwecke (im ZIP-Archiv 'ANALYSE')
  • Diagramme liegen jeweils in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor
  • Tabellen sind im CSV-Format bereitgestellt und sind damit sowohl für Menschen als auch für Maschinen gut lesbar
  • Kryptographische Signaturen
  • Veröffentlichung des Source Codes

 

Eckdaten

Stichtag: 24. Mai 2025

Inhaltlicher Umfang: 4566 Plenarprotokolle / ~362 Millionen Tokens

Zeitlicher Umfang: 1949 bis 2025

Wahlperioden: 1. bis 21. Wahlperiode

Formate: CSV, TXT, XML und Parquet

 

Source Code und Compilation Report

Der gesamte Erstellungs-Prozess ist vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook). Zudem werden Qualitätskontrollen auf Vollständigkeit und Plausibilität durchgeführt und in einem separaten Bericht dokumentiert.

Der Compilation Report enthält den Source Code für die Daten-Pipeline, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst.

Der vollständige Source Code, der Compilation Report und die Robustness Checks sind öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://doi.org/10.5281/zenodo.4542661

 

Kryptographische Signaturen

Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei-Phasen-Signatur sichergestellt.

In Phase I werden während der Kompilierung für jedes ZIP-Archiv, das Codebook und die Robustness Checks Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert.

In Phase II werden diese CSV-Datei und der Compilation Report mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden ist.

Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten:

Name: Sean Fobbe (fobbe-data@posteo.de)

Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42

 

Kein Urheberrecht: Public Domain

An den Plenarprotokollen besteht gem. § 5 Abs. 2 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

 

Disclaimer

Dieser Datensatz ist eine private wissenschaftliche Initiative und steht in keiner Verbindung zum Deutschen Bundestag oder anderen amtlichen Stellen der Bundesrepublik Deutschland.

 

Alternativen

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  zenodo.org/communities/sean-fobbe-data/

Source Code  —  zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  zenodo.org/communities/sean-fobbe-publications/

 

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf Codeberg oder kontaktieren Sie mich über www.seanfobbe.de

Files

CPP-BT_2025-05-24_Codebook.pdf

Files (4.2 GB)

Name Size Download all
md5:3b0cf85c474de185c3532b3d560927fd
821.1 kB Preview Download
md5:7d66d818880435ed92244a13fbce6285
2.1 MB Preview Download
md5:51dacca3869cf13c6437a936c01eeff7
814.6 MB Preview Download
md5:8cb4d6b0e1279d0a6aab564a52909037
145.3 kB Preview Download
md5:2453affb5748c27c9b7940f158e5808a
110.8 MB Preview Download
md5:7d0663f3fd02ad3c7fe8a7fb48b4eebb
9.3 MB Preview Download
md5:a81790e3f5c19d24747775676ec954fa
1.4 GB Download
md5:3cbd6a1d9256ebbac2195b91a719728d
176.9 MB Download
md5:cca2841b397911733afe185df75c2a5f
977.4 MB Preview Download
md5:10882143046f05a17b9b8f99d199c192
802.0 MB Preview Download
md5:aafef15c64eae3f961cbdc493d7c4d43
6.6 kB Preview Download

Additional details

Related works

Is compiled by
Software: 10.5281/zenodo.15462957 (DOI)
Is derived from
Dataset: https://www.bundestag.de/services/opendata (URL)
Dataset: https://dip.bundestag.de/ (URL)

Software

Repository URL
https://codeberg.org/seanfobbe/cpp-bt
Programming language
R
Development Status
Active