StanfordNER Gender-Classifier

Mareike Schumacher; Flüh, Marie

doi:10.5281/zenodo.5555952

Published October 8, 2021 | Version 1.0

Software Open

StanfordNER Gender-Classifier

1. University of Hamburg
2. Universität Hamburg

CRF-Classifier für automatische Annotation männlicher, weiblicher und neutraler Genderzuschreibungen in deutschsprachiger Literatur. Der Gender-Classifier kann mit dem Stanford Named Entity Recognizer zusammen genutzt werden. Das Modell wurde mit einem Trainingskorpus folgender Zusammensetzung trainiert:

ca. 100.000 Tokens aus 25 Novellen des deutschen Novellenschatzes

ca. 40.000 Tokens aus 10 Romanen des 18. Jahrhunderts

ca. 40.000 Tokens aus 10 Romanen des 19. Jahrhunderts

ca. 40.000 Tokens aus 10 Romanen des 20. Jahrhunderts

ca. 40.000 Tokens aus 10 Romanen des 21. Jahrhunderts

ca. 20.000 Tokens aus 5 Dramen des 18. Jahrhunderts

ca. 20.000 Tokens aus 5 Dramen des 19. Jahrhunderts

ca. 20.000 Tokens aus 5 Dramen des 20. Jahrhunderts

ca. 7.000 Figurennamen aus 500 Dramen des 17.-20. Jahrhunderts (bereitgestellt von https://dracor.org)

Getestet wurde das Modell mit 6 Novellen aus dem deutschen Novellenschatz, 8 Romanen aus den Jahrhunderten 18-21 und 3 Dramen von Caroline von Günderrode (1805), das Modell erreichte in den Tests einen durchschnittlichen overall F1-Score von 78,09%.

Die Erkennung von Genderzuschreibungen in Novellen des 19. Jahrhunderts ist mit einem durchschnittlichen overall F1-Score von 85,52% am besten.

In Romanen des 18.-21. Jahrhunderts beträgt die durchschnittliche Gesamterkennungsgenauigkeit (F1-Score) 72,83%.

In Ausschnitten aus drei Dramen von Caroline von Günderode (publiziert 1805) erreicht der Gender-Classifier einen F1-Score von 75,53%

Der Classifier wird laufend weiter entwickelt. Es handelt sich um eine Open-Beta-Version. Geplant ist z.B. die Aufnahme weiterer Gender-Kategorien, die nicht in das Binärschema männlich-weiblich fallen.

Der Classifier wurde im Projekt m*w entwickelt.

Der Classifier kann wie folgt verwendet werden:

Laden Sie sich den Classifier herunter
Laden Sie sich das Named-Entity-Recognition-Tool StanfordNER herunter
Öffnen Sie den Stanford-Named-Entity-Recognizer wie auf der Webseite der Stanford NLP Group beschrieben
Laden Sie über "Classifier" > "Load CRF from file" den Gender-Classifier in das Tool
Wählen Sie über "File" > "Open File" ein Dokument, in dem Genderzuschreibungen annotiert werden sollen
Klicken Sie auf "Run"

Die annotierten Daten können über "File" > "Save tagged file as" gespeichert und weiter verwendet werden.

Files

Files (55.1 MB)

Name	Size	Download all
Gender_Modell320000_mitListe_mitDrama18-20_ner-model.ser.gz md5:1387e7d6660af71202029906c39525a8	55.1 MB	Download

	All versions	This version
Views	1,286	1,126
Downloads	280	248
Data volume	16.1 GB	14.6 GB

StanfordNER Gender-Classifier

Authors/Creators

Description

Files

Files (55.1 MB)