Stoppwörter der Deutschen Rechtssprache (SW-DE-RS)
Creators
Description
Überblick
Die Stoppwörter der Deutschen Rechtssprache (SW-DE-RS) sind eine wissenschaftliche Sammlung von in der Rechtssprache der Bundesrepublik Deutschland gebräuchlichen Stoppwörtern. Frei nach Hans Peter Luhn verstehe ich Stoppwörter als hochfrequente Wörter, die in der Regel keinen Rückschluss auf den Inhalt eines Dokumentes zulassen und in der Regel nur grammatikalische oder syntaktische Bedeutung haben. Die bestimmten Artikel »der«, »die« und »das« sind klassische Stoppwörter der Allgemeinsprache.
In der quantitativen Analyse von Texten (»Natural Language Processing«) werden diese in nicht wenigen Anwendungsfällen entfernt um Analysen zu beschleunigen und die Qualität der Ergebnisse zu verbessern. Viele Softwarelösungen enthalten integrierte Listen von in der Allgemeinsprache üblichen Stoppwörtern. Die juristische Fachsprache weist jedoch viele semantische Besonderheiten und einen ganz eigenen und altertümlichen Sprachstil auf, welcher eine spezialisierte Liste von Stoppwörtern erforderlich macht. Dieser Datensatz ist als Ergänzung zu allgemeinsprachlichen Listen gedacht und sollte mit diesen kombiniert werden.
Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes.
Aktualisierung
Die Stoppwörter der Deutschen Rechtssprache (SW-DE-RS) werden ständig weiterentwickelt. Updates werden in unregelmäßigen Abständen auf Zenodo bereitgestellt. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org
Entwicklung
Die SW-DE-RS wurden auf Basis der häufigsten Wörter (N=500) in Entscheidungen des Bundesverfassungsgerichts, des Bundesgerichtshofs und des Bundesverwaltungsgerichts der Bundesrepublik Deutschland (Jahre 1998 bis 2020) entwickelt. Jedes Wort wurde auf seine Rolle in der juristischen Fachsprache geprüft.
Der Umfang der SW-DE-RS ist konservativ gehalten um nicht zuviele Wörter zu entfernen. Die Liste ist nach Variablen in Sub-Listen geteilt um sie leichter für eigene Forschungsprojekte individualisieren zu können. Sie ist in einer CSV-Datei gespeichert und enthält eine Header-Zeile mit den Variablen-Namen.
Tip zur Nutzung
Neben der Nutzung lokaler Dateien bieten einige Programmiersprachen auch die Möglichkeit CSV-Dateien aus Online-Quellen direkt einzulesen, ohne sie erst lokal abspeichern zu müssen. Die Links zu Dateien auf Zenodo eignen sich dafür besonders, weil sie langzeit-stabil und mit der Versions-DOI verknüpft sind. Das ist insbesondere dann hilfreich, wenn Sie ihre Skripte mit anderen Personen teilen wollen ohne Daten beizulegen oder wenn Sie die Replikationsfähigkeit ihres Codes in veröffentlichten Analysen erhöhen wollen.
Ein Beispiel für die Nutzung mit R:
stoppwoerterJura <- read.csv("https://zenodo.org/record/3995594/files/SW-DE-RS_v1-0-0_Datensatz.csv?download=1")
Kein Urheberrecht: Public Domain
An den Entscheidungstexten und amtlichen Leitsätzen besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.
Weitere Open Access Veröffentlichungen (Fobbe)
Website — www.seanfobbe.de
Open Data — zenodo.org/communities/sean-fobbe-data/
Source Code — zenodo.org/communities/sean-fobbe-code/
Volltexte regulärer Publikationen — zenodo.org/communities/sean-fobbe-publications/
Kontakt
Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de
Files
SW-DE-RS_v1-0-0_Codebook.pdf
Files
(287.7 kB)
Name | Size | Download all |
---|---|---|
md5:95a2cbbb2fae0069ba8aa0beb08a5110
|
282.9 kB | Preview Download |
md5:229fdf270d0263fb184a8def67090f76
|
4.8 kB | Preview Download |