Planned intervention: On Wednesday April 3rd 05:30 UTC Zenodo will be unavailable for up to 2-10 minutes to perform a storage cluster upgrade.
Published September 23, 2020 | Version 1.0.0
Dataset Open

Stoppwörter der Deutschen Rechtssprache (SW-DE-RS)

Creators

Description

 

Überblick

Die Stoppwörter der Deutschen Rechtssprache (SW-DE-RS) sind eine wissenschaftliche Sammlung von in der Rechtssprache der Bundesrepublik Deutschland gebräuchlichen Stoppwörtern. Frei nach Hans Peter Luhn verstehe ich Stoppwörter als hochfrequente Wörter, die in der Regel keinen Rückschluss auf den Inhalt eines Dokumentes zulassen und in der Regel nur grammatikalische oder syntaktische Bedeutung haben. Die bestimmten Artikel »der«, »die« und »das« sind klassische Stoppwörter der Allgemeinsprache.

In der quantitativen Analyse von Texten (»Natural Language Processing«) werden diese in nicht wenigen Anwendungsfällen entfernt um Analysen zu beschleunigen und die Qualität der Ergebnisse zu verbessern. Viele Softwarelösungen enthalten integrierte Listen von in der Allgemeinsprache üblichen Stoppwörtern. Die juristische Fachsprache weist jedoch viele semantische Besonderheiten und einen ganz eigenen und altertümlichen Sprachstil auf, welcher eine spezialisierte Liste von Stoppwörtern erforderlich macht. Dieser Datensatz ist als Ergänzung zu allgemeinsprachlichen Listen gedacht und sollte mit diesen kombiniert werden.

Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes.

 

Aktualisierung

Die Stoppwörter der Deutschen Rechtssprache (SW-DE-RS) werden ständig weiterentwickelt. Updates werden in unregelmäßigen Abständen auf Zenodo bereitgestellt. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org

 

Entwicklung

Die SW-DE-RS wurden auf Basis der häufigsten Wörter (N=500) in Entscheidungen des Bundesverfassungsgerichts, des Bundesgerichtshofs und des Bundesverwaltungsgerichts der Bundesrepublik Deutschland (Jahre 1998 bis 2020) entwickelt. Jedes Wort wurde auf seine Rolle in der juristischen Fachsprache geprüft.

Der Umfang der SW-DE-RS ist konservativ gehalten um nicht zuviele Wörter zu entfernen. Die Liste ist nach Variablen in Sub-Listen geteilt um sie leichter für eigene Forschungsprojekte individualisieren zu können. Sie ist in einer CSV-Datei gespeichert und enthält eine Header-Zeile mit den Variablen-Namen.

 

Tip zur Nutzung

Neben der Nutzung lokaler Dateien bieten einige Programmiersprachen auch die Möglichkeit CSV-Dateien aus Online-Quellen direkt einzulesen, ohne sie erst lokal abspeichern zu müssen. Die Links zu Dateien auf Zenodo eignen sich dafür besonders, weil sie langzeit-stabil und mit der Versions-DOI verknüpft sind. Das ist insbesondere dann hilfreich, wenn Sie ihre Skripte mit anderen Personen teilen wollen ohne Daten beizulegen oder wenn Sie die Replikationsfähigkeit ihres Codes in veröffentlichten Analysen erhöhen wollen.

Ein Beispiel für die Nutzung mit R:

stoppwoerterJura <- read.csv("https://zenodo.org/record/3995594/files/SW-DE-RS_v1-0-0_Datensatz.csv?download=1")

 

Kein Urheberrecht: Public Domain

An den Entscheidungstexten und amtlichen Leitsätzen besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  zenodo.org/communities/sean-fobbe-data/

Source Code  —  zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  zenodo.org/communities/sean-fobbe-publications/

 

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

 

Files

SW-DE-RS_v1-0-0_Codebook.pdf

Files (287.7 kB)

Name Size Download all
md5:95a2cbbb2fae0069ba8aa0beb08a5110
282.9 kB Preview Download
md5:229fdf270d0263fb184a8def67090f76
4.8 kB Preview Download