Thesis Open Access

Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python

Kocula, Martin


DataCite XML Export

<?xml version='1.0' encoding='utf-8'?>
<resource xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://datacite.org/schema/kernel-4" xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4.1/metadata.xsd">
  <identifier identifierType="DOI">10.5281/zenodo.5552487</identifier>
  <creators>
    <creator>
      <creatorName>Kocula, Martin</creatorName>
      <givenName>Martin</givenName>
      <familyName>Kocula</familyName>
    </creator>
  </creators>
  <titles>
    <title>Volltext vs. abgeleitetes Textformat: Systematische Evaluation der Performanz von Topic Modeling bei unterschiedlichen Textformaten mit Python</title>
  </titles>
  <publisher>Zenodo</publisher>
  <publicationYear>2021</publicationYear>
  <subjects>
    <subject>topic modeling</subject>
    <subject>text formats</subject>
    <subject>python</subject>
    <subject>natural language processing</subject>
    <subject>copyright</subject>
  </subjects>
  <contributors>
    <contributor contributorType="Supervisor">
      <contributorName>Schöch, Christof</contributorName>
      <givenName>Christof</givenName>
      <familyName>Schöch</familyName>
    </contributor>
  </contributors>
  <dates>
    <date dateType="Issued">2021-10-06</date>
  </dates>
  <language>de</language>
  <resourceType resourceTypeGeneral="Text">Thesis</resourceType>
  <alternateIdentifiers>
    <alternateIdentifier alternateIdentifierType="url">https://zenodo.org/record/5552487</alternateIdentifier>
  </alternateIdentifiers>
  <relatedIdentifiers>
    <relatedIdentifier relatedIdentifierType="DOI" relationType="IsVersionOf">10.5281/zenodo.5552486</relatedIdentifier>
  </relatedIdentifiers>
  <rightsList>
    <rights rightsURI="https://creativecommons.org/licenses/by/4.0/legalcode">Creative Commons Attribution 4.0 International</rights>
    <rights rightsURI="info:eu-repo/semantics/openAccess">Open Access</rights>
  </rightsList>
  <descriptions>
    <description descriptionType="Abstract">&lt;p&gt;Abgeleitete Textformate bergen das Potenzial, allgemein verf&amp;uuml;gbare Korpora zu erstellen und zu publizieren, die urheberrechtlich weitgehend unbedenklich sind. In dieser Masterarbeit werden Hypothesen &amp;uuml;ber die Eignung dieser Textformate f&amp;uuml;r Topic Modeling aufgestellt und &amp;uuml;berpr&amp;uuml;ft. Hierf&amp;uuml;r wird eine in Python geschriebene Pipeline implementiert, die den Volltext schrittweise in mehrere Textformate uwandelt und daraus Topic Modelle erzeugt. Anschlie&amp;szlig;end werden zur Bewertung der Topics ihre Koh&amp;auml;renzen errechnet und verglichen. Das verwendete Korpus besteht zum Zwecke der Nachvollziehbarkeit aus gemeinfreien englischen Romanen aus dem 19. und 20. Jahrhundert.&lt;/p&gt;</description>
    <description descriptionType="Other">Diese Arbeit wurde in enger Zusammenarbeit mit der Firma "parsQube GmbH" in Karlsruhe angefertigt.
Web-Version verfügbar unter https://www.parsqube.de/publikationen/volltext-vs-abgeleitetes-textformat/</description>
  </descriptions>
</resource>
235
114
views
downloads
All versions This version
Views 235235
Downloads 114114
Data volume 254.3 MB254.3 MB
Unique views 182182
Unique downloads 9999

Share

Cite as