Thesis Open Access

Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python

Kocula, Martin


Dublin Core Export

<?xml version='1.0' encoding='utf-8'?>
<oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
  <dc:creator>Kocula, Martin</dc:creator>
  <dc:date>2021-10-06</dc:date>
  <dc:description>Abgeleitete Textformate bergen das Potenzial, allgemein verfügbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen über die Eignung dieser Textformate für Topic Modeling aufgestellt und überprüft. Hierfür wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschließend werden zur Bewertung der Topics ihre Kohärenzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.</dc:description>
  <dc:description>Diese Arbeit wurde in enger Zusammenarbeit mit der Firma "parsQube GmbH" in Karlsruhe angefertigt.
Web-Version verfügbar unter https://www.parsqube.de/publikationen/volltext-vs-abgeleitetes-textformat/</dc:description>
  <dc:identifier>https://zenodo.org/record/5552487</dc:identifier>
  <dc:identifier>10.5281/zenodo.5552487</dc:identifier>
  <dc:identifier>oai:zenodo.org:5552487</dc:identifier>
  <dc:language>deu</dc:language>
  <dc:relation>doi:10.5281/zenodo.5552486</dc:relation>
  <dc:rights>info:eu-repo/semantics/openAccess</dc:rights>
  <dc:rights>https://creativecommons.org/licenses/by/4.0/legalcode</dc:rights>
  <dc:subject>topic modeling</dc:subject>
  <dc:subject>text formats</dc:subject>
  <dc:subject>python</dc:subject>
  <dc:subject>natural language processing</dc:subject>
  <dc:subject>copyright</dc:subject>
  <dc:title>Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python</dc:title>
  <dc:type>info:eu-repo/semantics/doctoralThesis</dc:type>
  <dc:type>publication-thesis</dc:type>
</oai_dc:dc>
235
114
views
downloads
All versions This version
Views 235235
Downloads 114114
Data volume 254.3 MB254.3 MB
Unique views 182182
Unique downloads 9999

Share

Cite as