StanfordNER Gender-Classifier

Mareike Schumacher

doi:10.5281/zenodo.3667462

Published May 9, 2021 | Version 0.1

Software Open

StanfordNER Gender-Classifier

Mareike Schumacher¹

1. University of Hamburg

Contributors

Project member:

Flüh, Marie¹

1. University of Hamburg

CRF-Classifier für automatische Annotation männlicher, weiblicher und neutraler Genderzuschreibungen in deutschsprachiger Literatur. Der Gender-Classifier kann mit dem Stanford Named Entity Recognizer zusammen genutzt werden. Das Modell wurde mit einem Trainingskorpus folgender Zusammensetzung trainiert:

ca. 100.000 Tokens aus 25 Novellen des deutschen Novellenschatzes

ca. 40.000 Tokens aus 10 Romanen des 18. Jahrhunderts

ca. 40.000 Tokens aus 10 Romanen des 19. Jahrhunderts

ca. 40.000 Tokens aus 10 Romanen des 20. Jahrhunderts

ca. 40.000 Tokens aus 10 Romanen des 21. Jahrhunderts

Getestet wurde das Modell mit 6 Novellen aus dem deutschen Novellenschatz, 4 Romanen aus den Jahrhunderten 18-21 und 3 Dramen von Caroline von Günderode (1805), das Modell erreichte in den Tests einen durchschnittlichen overall F1-Score von 72,3%.

Die Erkennung von Genderzuschreibungen in Novellen ist mit einem durchschnittlichen overall F1-Score von 77,5% am Besten.

In Romanen des 18.-21. Jahrhundert beträgt die durchschnittliche Gesamterkennungsgenauigkeit (F1-Score) 68,3%.

In den Dramen von Caroline von Günderode (publiziert 1805) erreicht der Gender-Classifier einen F1-Score von 51,5%

Der Classifier wird laufend weiter entwickelt. Es handelt sich um eine Open-Beta-Version.

Der Classifier wurde im Projekt m*w entwickelt.

Files

Files (46.4 MB)

Name	Size	Download all
Gender_Modell260000_ner-model.ser.gz md5:4fa903c5e64a1546aeced5d344f9c034	46.4 MB	Download

Citations

Oops! Something went wrong while fetching results.

	All versions	This version
Views	864	108
Downloads	148	13
Data volume	8.7 GB	603.6 MB

StanfordNER Gender-Classifier

Creators

Contributors

Project member:

Description

Files

Files (46.4 MB)