Thesis Open Access

Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python

Kocula, Martin

Thesis supervisor(s)

Schöch, Christof

Abgeleitete Textformate bergen das Potenzial, allgemein verfügbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen über die Eignung dieser Textformate für Topic Modeling aufgestellt und überprüft. Hierfür wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschließend werden zur Bewertung der Topics ihre Kohärenzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.

Diese Arbeit wurde in enger Zusammenarbeit mit der Firma "parsQube GmbH" in Karlsruhe angefertigt. Web-Version verfügbar unter https://www.parsqube.de/publikationen/volltext-vs-abgeleitetes-textformat/
Files (2.2 MB)
Name Size
masterarbeit_merged.pdf
md5:88864429204bb759af8d217c5c503c36
2.2 MB Download
329
174
views
downloads
All versions This version
Views 329329
Downloads 174174
Data volume 388.2 MB388.2 MB
Unique views 270270
Unique downloads 152152

Share

Cite as