Published October 6, 2021
| Version v1
Thesis
Open
Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python
Creators
Contributors
Supervisor:
Description
Abgeleitete Textformate bergen das Potenzial, allgemein verfügbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen über die Eignung dieser Textformate für Topic Modeling aufgestellt und überprüft. Hierfür wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschließend werden zur Bewertung der Topics ihre Kohärenzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.
Notes
Files
masterarbeit_merged.pdf
Files
(2.2 MB)
Name | Size | Download all |
---|---|---|
md5:88864429204bb759af8d217c5c503c36
|
2.2 MB | Preview Download |