Universität des Saarlandes

MULI - Multilinguale Informationsstruktur

Inhalt

Einführendes

English introduction

Ebenen der Annotation

Veranstaltungen

Aufsätze & Präsentationen

Articles & presentations

Team

Impressum

Ebenen der Annotation

Zitiervorschlag: Projekt MULI - Multilinguale Informationsstruktur, Universität des Saarlandes, [Stand der Bearbeitung], [Angabe der URL].

Einleitung

Die Annotation in MULI zielt darauf ab, die Informationsstruktur in deutschen und englischen Zeitungstexten zu analysieren. Dabei wird auf eine Festlegung auf eine bestimmte Theorie zur Informationsstruktur vermieden: In einem möglichst theorieneutralen Annotationsschema werden drei Ebenen unterschieden: Die intonatorische, die syntaktische und die diskursive Ebene.

Das Untersuchungskorpus besteht aus Teilen der TIGER-Baumbank für das Deutsche (Brants et al. im Druck; https://www.coli.uni-saarland.de/cl/projects/tiger/) und der Penn Treebank für das Englische (Marcus et al. 1993; http://www.cis.upenn.edu/~treebank/home.html). Da die Penn Treebank auf Texten des Wallstreet Journals beruht, wurden zur besseren Vergleichbarkeit aus der dem TIGER-Baumbank zugrundliegenden Frankfurter Rundschau Artikel aus dem Wirtschaftsteil ausgewählt. Die in diesen Baumbanken enthaltene Information über Wortklassen und syntaktische Struktur kann dabei für die Interpretation der Informationsstruktur weiterverwendet werden. Insgesamt wurden 250 Sätze im Deutschen und 320 Sätze im Englischen annotiert.

Intonation

Hinsichtlich der Intonation wurde mit Hilfe des Sprachbearbeitungsprogramms emu Folgendes auf einer jeweils eigenen Ebene etikettiert:

  1. Wortgrenzen
  2. Interpunktion
  3. Akzent- und Grenztöne
  4. Größe der Phrasengrenze
  5. Akzentverschiebungen (wenn sich der Wortakzent auf Grund des Kontextes verlagert)
  6. Bemerkungen, z.B. falsche oder nicht berechnete Grundfrequenzen oder Unklarheiten

Die Annotation der dritten und vierten Ebene folgt den Konventionen des Intonationsmodells GToBI ( https://www.coli.uni-saarland.de/phonetik/projects/Tobi/gtobi.php3)

Es gibt sechs verschiedene Akzenttöne:

H* Gipfel einer Aufwärtsbewegung ohne auffällig tiefen Zielpunkt vor Akzentsilbe ("Normalakzent")
L+H* Tiefer Zielpunkt vor Akzentsilbe, steiler Anstieg zur hohen Akzentsilbe. Höreindruck hoch
L* Tiefer Zielpunkt in Akzentsilbe, kein hoher Zielpunkt in unmittelbarer Umgebung der Akzentsilbe
L*+H Tiefer Zielpunkt in Akzentsilbe, steigend mit Gipfel nach der Akzentsilbe. Höreindruck tief
H+L* Hoher Zielpunkt vor Akzentsilbe, starker Abfall oder Sprung zur tiefen Akzentsilbe
H+!H* Hoher Zielpunkt vor Akzentsilbe, Sprung in mittlere Tonlage auf Akzentsilbe

Jeder H-Ton, der auf einen anderen H-Ton (innerhalb einer ip) folgt, kann herabgestuft sein (Downstep) und deshalb durch ein "!" markiert werden. Dasselbe gilt für heraufgestufte H-Töne (Upstep), gekennzeichnet durch "^".

Es gibt zwei wichtige Größen der Phrasengrenzen:
3 Intermediärphrase (ip)
4 Intonationsphrase (IP)
Der Index 4 markiert das Ende einer (größeren) Intonationsphrase, die mindestens eine (kleine) Intermediärphrase umfasst.
Tonal werden ip-Grenzen durch H- oder L- gekennzeichnet, je nach dem, ob die ip hoch oder tief endet. IP-Grenzen können durch folgende Tonkombinationen markiert werden:

L-% Tief fallend
H-% Hohes Plateau
L-H% Fallend-steigend nach H-Tönen, nach L-Tönen flache Kontur mit Anstieg auf mittlere Tonhöhe innerhalb der letzten Silbe
H-^H% Steigend auf mittlere Lage, auf letzter Silbe stark ansteigend

Das Label %H markiert einen hohen initialen Grenzton (mittlere oder tiefe initiale Grenztöne werden nicht markiert).

H und L sind Zielpunkte einer Tonhöhenbewegung
* kennzeichnet einen Zielpunkt auf der akzentuierten Silbe
+ verbindet den Zielpunkt vor oder nach der Akzentsilbe mit dem Zielpunkt auf der Akzentsilbe
- kennzeichnet den Grenzton einer Intermediärphrase (ip)
% kennzeichnet die Grenztöne einer Intonationsphrase (IP)
? nach einem Ton = unsicher, ob der Ton stimmt
Akzenttöne: H*, L*, L+H*, L*+H, H+L*, H+!H*
Grenztöne und Kombinationen: L-, H-, L-%, H-%, H-^H%, L-H%, %H
! kennzeichnet den Downstep eines H Tons in Akzenten und bei H-
^ kennzeichnet den Upstep eines H Tons in Akzenten und bei Grenztönen
Es gibt keinen Ton ohne Diakritikum

Syntax

Die Annotation auf der Ebene der Syntax konzentriert sich auf für die Informationsstruktur relevante Phänomene. Dazu gehören von der kanonischen Wortstellung abweichende Strukturen, fokussierende Strukturen wie der Spaltsatz sowie das Genus verbi. Das Annotationsschema sieht wie folgt aus:

syntax

Für die Annotation wurde ein XML-Editor verwendet.
Im einzelnen wurden jeweils für das Deutschen und Englische angepaßt die folgenden Merkmale in Einzelsätzen (clauses) annotiert:

Satzspaltung
Ein nominales Satzglied wird getilgt und in die Subjektposition eines vorhergehenden oder folgenden Kopulasatzes transponiert. Der Matrixsatz wird meist in einen Relativsatz umgeformt. Für die Annotation wurde dabei weiter zwischen Spaltsatz/cleft, Sperrsatz/pseudo-cleft und umgekehrtem Sperrsatz/reversed pseudo-cleft unterschieden.

Extraposition
Extraposition stellt eine Abweichung von der Grundwortstellung dar, bei der Satzglieder aus dem Stellungsfeld ausgegliedert und nachgestellt werden. In der Terminologie der Transformationsgrammatik ist Extraposition eine Konstruktion zur Rhematisierung von Subjektsätzen oder Infinitivgruppen.

Expletives es, there-Insertion
Ein semantisch leeres, referenzloses Expletiv (im Englischen there, im Deutschen es) steht in der Anfangsposition eines Satzes. Wenn die erste Stelle durch ein anderes Satzglied besetzt ist, fällt es weg. Statt seiner Normstellung vor dem finiten Verb erhält das Subjekt nach dem finiten Verb eine betonte Stellung. Besonders häufig ist das der Fall, wenn das Subjekt in unbestimmter Form erscheint. Dabei kongruiert das finite Verb im Deutschen nicht mit es, sonder mit dem substantivischen Subjekt. Im Englischen wird unabhängig vom Numerus des Subjekts besonders in der gesprochenen Sprache häufig die Singular-Form des Verbs verwendet. Ein Sonderfall im Deutschen ist es gibt. Zwar hat dieses Element eine vergleichbare Funktion, die Realisierung ist jedoch unterschiedlich (das es ist durch Umstellung nicht ersetzbar, es kongruiert mit dem Verb). Nicht relevant: 1. Im Deutschen nicht zu verwechseln mit dem Korrelat es, das beim finiten Verb mit Infinitiv steht. 2. Witterungs-es

Fronting
Ein Element, das üblicherweise nach dem finiten Verb steht, wird in die Anfangsposition verschoben. Häufig handelt es sich dabei um eine vollständiges Satzelement. Aufgrund der freieren Wortstellung ist für das Deutsche hier die kanonische Abfolge der Argumente (nicht die jeweilige syntaktische Funktion) gemeint: Ein anderes als das inhärenteste Argument steht vor dem finiten Verb.

Medio-Passiv
Das von einer Handlung betroffenen Argument ("Medium") rückt in Subjektposition. Dabei fällt das die Handlung durchführende Argument ("Agent") weg. Im Deutschen ist diese Konstruktion sehr selten und erfordert dann meist das Reflexivpronomen sich.

Passiv
Das Subjekt wird dadurch verschoben, daß das agentive Subjekt eines transitiven Satzes in das Agens einer Passivkonstruktion verwandelt wird. Damit wird die Abfolge von agentiven und nicht-agentiven Elementen umgekehrt.

Diskurs

This level of annotation covers the annotation of both discourse entities as such with their properties, and the anaphoric relationships between discourse entities. Each discourse entity is represented as a markable, its properties are represented as attributes of the markable, and the relationships between discourse entities are represented as links between markables.

We annotate as markables all nominal-like expressions that introduce discourse entities, whether concrete or abstract, and whether ``entities'' or ``eventualities''. In addition, we also include non-nominal expressions, but only when they enter into an anaphoric relationship with an entity introduced by a nominal-like expression.

Links at this level represent textual relationships between markables. For the time being, we annotate anaphoric reference relations. Rhetorical (or: coherence) relations are not included yet.

The attributes of each markable encode the properties of the respective discourse entity:

  • the following attributes characterize each discourse entity: type and semantic sort, delimitation (unique, variable or existential for denotational uses, else non-denotational), quantification (combining countability and specific/unspecific quantity), information status (following Prince's givenness hierarchy), and surface form (basically, distinguishing nominal from other expressions);
  • in addition, the attribute of referential link type characterizes the anaphoric link (if any) between the discourse entity and any other, distinguishing between coreference (reference- or sense-identity) and bridging (association).

The scheme follows the recommendations of the Text Encoding Initiative (TEI website: http://www.tei-c.org/) and the Discourse Resource Initiative. The scheme builds on the reference annotation schemes for MUC-6 and MUC-7 (MUC Coreference Specification), DRAMA, the MATE project (MATE project website http://mate.mip.ou.dk), the DRI guidelines and the scheme used by the NLP group at EML Research (EML Research NLP group's website:http://www.eml-research.de/english/Research/NLP).

Our annotation guidelines were formulated having in mind the MMAX tool for annotation developed at the NLP group at EML Research. This is the tool we use to do the annotation at this level.