Published May 24, 2015 | Version v1
Poster Open

SaltNPepper, ANNIS & Atomic: Eine Infrastruktur für Mehrebenenkorpora

Description

In Sammlungen von Textdaten und dazugehörigen linguistischen Annotationen lassen sich empirisch linguistische Phänomene untersuchen. Sprachdaten können auf vielen Ebenen klassifieziert und in einem Korpus annotiert werden: Wörter können Wortarten zugeordnet werden, Sätze können syntaktisch annotiert und mit rhetorischen Strukturen angereichert werden, in Lernertexten können grammatische Fehler angegeben werden etc. Für die Annotation und Analyse einzelner Ebenen existieren unterschiedliche Werkzeuge: MMAX2, RSTTool, @nnotate, EXMARaLDA, Elan, TiGerSearch und viele weitere. Einige linguistische Phänomene wie bspw. Informationsstruktur lassen sich nur über mehere Ebenen (Betonung, Wortstellung,
Definitheit, Gegebenheit etc.) hinweg untersuchen (Lüdeling et al., erscheint). Die Werkzeuge verlangen unterschiedliche Eingabeformate und produzieren verschiedene Ausgabeformate. Dadurch ist eine Analyse über verschiedene Ebenen hinweg schwierig. Einige Werkzeuge werden nicht weiter gepflegt.

Ziele:
1.Zusammenführen der Ebenen zu Mehrebenenkorpora → Pepper
2.Ebenenübergreifende Analyse der Daten → ANNIS
3.Erstellung von Mehrebenenkorpora in einem Tool → Atomic

Files

sfbConference2015_ZipserRohrigLudelingKlotzDruskatKrauseVoigt.pdf

Files (799.8 kB)

Additional details

Funding

CLARIN – Common Language Resources and Technology Infrastructure 212230
European Commission