Thesis Open Access

Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python

Kocula, Martin


Citation Style Language JSON Export

{
  "publisher": "Zenodo", 
  "DOI": "10.5281/zenodo.5552487", 
  "language": "deu", 
  "title": "Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python", 
  "issued": {
    "date-parts": [
      [
        2021, 
        10, 
        6
      ]
    ]
  }, 
  "abstract": "<p>Abgeleitete Textformate bergen das Potenzial, allgemein verf&uuml;gbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen &uuml;ber die Eignung dieser Textformate f&uuml;r Topic Modeling aufgestellt und &uuml;berpr&uuml;ft. Hierf&uuml;r wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschlie&szlig;end werden zur Bewertung der Topics ihre Koh&auml;renzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.</p>", 
  "author": [
    {
      "family": "Kocula, Martin"
    }
  ], 
  "note": "Diese Arbeit wurde in enger Zusammenarbeit mit der Firma \"parsQube GmbH\" in Karlsruhe angefertigt.\nWeb-Version verf\u00fcgbar unter https://www.parsqube.de/publikationen/volltext-vs-abgeleitetes-textformat/", 
  "type": "thesis", 
  "id": "5552487"
}
236
115
views
downloads
All versions This version
Views 236236
Downloads 115115
Data volume 256.5 MB256.5 MB
Unique views 183183
Unique downloads 100100

Share

Cite as