Published March 10, 2023 | Version v1
Conference paper Open

Pipelines für Natural Language Processing und digitale Literaturanalyse in spaCy

  • 1. Seminar für Deutsche Philologie, Georg-August-Universität Göttingen, Deutschland
  • 2. Niedersächsische Staats- und Universitätsbibliothek Göttingen, Georg-August-Universität Göttingen, Deutschland
  • 3. Göttingen Centre for Digital Humanities, Georg-August-Universität Göttingen, Deutschland
  • 4. Niedersächsische Staats- und Universitätsbibliothek Göttingen, Deutschland
  • 1. Universität Potsdam, Deutschland
  • 2. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
  • 3. University of Luxembourg
  • 4. Universität Trier, Deutschland

Description

In diesem halbtägigen Workshop stellen wir ein auf spaCy basierendes Pipeline-System für das Natural Language Processing (NLP) vor und erproben mit den Teilnehmer*innen dessen praktische Anwendung, besonders im Hinblick auf Untersuchungsgegenstände der digitalen Literaturanalyse. Der Workshop vermittelt (i) die Grundlagen von spaCy und dessen Kernkomponenten (Tokenisierung, Lemmatisierung, Erkennung von Satz- und Teilsatzgrenzen, Named Entity Recognition, Dependency Parsing), (ii) demonstriert, wie die spaCy-Pipeline an die eigenen Zwecke durch Custom-Komponenten angepasst werden kann (z. B. zur Erkennung von Zeitformen oder Redewiedergabe), und versetzt (iii) die Teilnehmer*innen mit hands-on Praxisbeispielen in die Lage, die Pipeline-Komponenten zur Erschließung der linguistischen und narrativen Struktur eines Textes im Rahmen eigener Projekte kompetent auszuwählen, anzuwenden, zu erweitern und die Ergebnisse zu beurteilen. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.

Files

VARACHKINA_Hanna_Pipelines_f_r_Natural_Language_Processing_u.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.7688632 (DOI)