Published October 6, 2021 | Version v1
Thesis Open

Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python

Creators

Contributors

Supervisor:

Description

Abgeleitete Textformate bergen das Potenzial, allgemein verfügbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen über die Eignung dieser Textformate für Topic Modeling aufgestellt und überprüft. Hierfür wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschließend werden zur Bewertung der Topics ihre Kohärenzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.

Notes

Diese Arbeit wurde in enger Zusammenarbeit mit der Firma "parsQube GmbH" in Karlsruhe angefertigt. Web-Version verfügbar unter https://www.parsqube.de/publikationen/volltext-vs-abgeleitetes-textformat/

Files

masterarbeit_merged.pdf

Files (2.2 MB)

Name Size Download all
md5:88864429204bb759af8d217c5c503c36
2.2 MB Preview Download