Pipelines für Natural Language Processing und digitale Literaturanalyse in spaCy
Creators
- 1. Seminar für Deutsche Philologie, Georg-August-Universität Göttingen, Deutschland
- 2. Niedersächsische Staats- und Universitätsbibliothek Göttingen, Georg-August-Universität Göttingen, Deutschland
- 3. Göttingen Centre for Digital Humanities, Georg-August-Universität Göttingen, Deutschland
- 4. Niedersächsische Staats- und Universitätsbibliothek Göttingen, Deutschland
Contributors
Editors:
Project members:
- 1. Universität Potsdam, Deutschland
- 2. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
- 3. University of Luxembourg
- 4. Universität Trier, Deutschland
Description
In diesem halbtägigen Workshop stellen wir ein auf spaCy basierendes Pipeline-System für das Natural Language Processing (NLP) vor und erproben mit den Teilnehmer*innen dessen praktische Anwendung, besonders im Hinblick auf Untersuchungsgegenstände der digitalen Literaturanalyse. Der Workshop vermittelt (i) die Grundlagen von spaCy und dessen Kernkomponenten (Tokenisierung, Lemmatisierung, Erkennung von Satz- und Teilsatzgrenzen, Named Entity Recognition, Dependency Parsing), (ii) demonstriert, wie die spaCy-Pipeline an die eigenen Zwecke durch Custom-Komponenten angepasst werden kann (z. B. zur Erkennung von Zeitformen oder Redewiedergabe), und versetzt (iii) die Teilnehmer*innen mit hands-on Praxisbeispielen in die Lage, die Pipeline-Komponenten zur Erschließung der linguistischen und narrativen Struktur eines Textes im Rahmen eigener Projekte kompetent auszuwählen, anzuwenden, zu erweitern und die Ergebnisse zu beurteilen. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.
Files
VARACHKINA_Hanna_Pipelines_f_r_Natural_Language_Processing_u.pdf
Files
(69.2 kB)
Name | Size | Download all |
---|---|---|
md5:892c6fee4d4db62a83afca8e1ff7f3bd
|
38.9 kB | Preview Download |
md5:f1ee76147af463e2bd4494001a67fbca
|
30.3 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.7688632 (DOI)