Poster Open Access

SaltNPepper, ANNIS & Atomic: Eine Infrastruktur für Mehrebenenkorpora

Florian Zipser; André Röhrig; Anke Lüdeling; Martin Klotz; Thomas Krause; Stephan Druskat; Vivian Voigt

In Sammlungen von Textdaten und dazugehörigen linguistischen Annotationen lassen sich empirisch linguistische Phänomene untersuchen. Sprachdaten können auf vielen Ebenen klassifieziert und in einem Korpus annotiert werden: Wörter können Wortarten zugeordnet werden, Sätze können syntaktisch annotiert und mit rhetorischen Strukturen angereichert werden, in Lernertexten können grammatische Fehler angegeben werden etc. Für die Annotation und Analyse einzelner Ebenen existieren unterschiedliche Werkzeuge: MMAX2, RSTTool, @nnotate, EXMARaLDA, Elan, TiGerSearch und viele weitere. Einige linguistische Phänomene wie bspw. Informationsstruktur lassen sich nur über mehere Ebenen (Betonung, Wortstellung,
Definitheit, Gegebenheit etc.) hinweg untersuchen (Lüdeling et al., erscheint). Die Werkzeuge verlangen unterschiedliche Eingabeformate und produzieren verschiedene Ausgabeformate. Dadurch ist eine Analyse über verschiedene Ebenen hinweg schwierig. Einige Werkzeuge werden nicht weiter gepflegt.

Ziele:
1.Zusammenführen der Ebenen zu Mehrebenenkorpora → Pepper
2.Ebenenübergreifende Analyse der Daten → ANNIS
3.Erstellung von Mehrebenenkorpora in einem Tool → Atomic

Files (799.8 kB)
Name Size
sfbConference2015_ZipserRohrigLudelingKlotzDruskatKrauseVoigt.pdf md5:f53063b1bcd2c236eb6eb87c1ce8149b 799.8 kB Download

Share

Cite as