Thesis Open Access

Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python

Kocula, Martin

Thesis supervisor(s)

Schöch, Christof

Abgeleitete Textformate bergen das Potenzial, allgemein verfügbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen über die Eignung dieser Textformate für Topic Modeling aufgestellt und überprüft. Hierfür wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschließend werden zur Bewertung der Topics ihre Kohärenzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.

Diese Arbeit wurde in enger Zusammenarbeit mit der Firma "parsQube GmbH" in Karlsruhe angefertigt. Web-Version verfügbar unter https://www.parsqube.de/publikationen/volltext-vs-abgeleitetes-textformat/
Files (2.2 MB)
Name Size
masterarbeit_merged.pdf
md5:88864429204bb759af8d217c5c503c36
2.2 MB Download
207
98
views
downloads
All versions This version
Views 207207
Downloads 9898
Data volume 218.6 MB218.6 MB
Unique views 157157
Unique downloads 8484

Share

Cite as