Klassifikation von Stützverben: bringen, kommen, finden: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(2.1 Datenerhebung)
(2.1 Datenerhebung)
Zeile 68: Zeile 68:
 
|}
 
|}
 
<small>Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D</small>
 
<small>Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D</small>
 +
 +
 +
==== 2.2. Datenaufbereitung ====
 +
 +
Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).
 +
 +
Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.
 +
 +
Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.
 +
  
  

Version vom 5. August 2014, 12:29 Uhr

1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden fanden keine Anwendung.

1.2 Klaus bringt seinen Wagen ins Rollen.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen fanden keine Unterkunft.

1.4 Klaus bringt seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

Zeitliche Entwicklung: Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

Textsortenspezifik: Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.


2. Datengrundlage und linguistische Vorarbeiten

2.1 Datenerhebung

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben bringen, kommen und finden ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘, das im Folgenden ‚DWDS-KK‘ abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereiche (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben bringen, finden und kommen sowie ihre Verteilung auf die vier Textsortenbereiche.

Verb Gesamt Belletristik Gebrauchsliteratur Wissenschaft Zeitung
bringen 64.629 18.006 - 27,86% 14.301 - 22,13% 12.653 - 19,58% 19.669 - 30,43%
finden 82.162 21.704 - 26,42% 17.215 - 20,95% 21.345 - 25,98% 21.898 - 26,65%
kommen 165.094 71.399 - 43,25% 36.068 - 21,85% 23.924 - 14,49% 33.703 - 20,41%

Tabelle 1: Vorkommensfrequenzen im DWDS-KK


Das Wikipedia-Korpus/Artikelseiten (‚Wiko-A‘) und das Wikipedia-Korpus/Diskussionsseiten (‚Wiko-D‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben bringen, finden und kommen in den beiden Teilkorpora.

Verb Wiko-A Wiko-D
bringen 124.675 69.582
finden 333.262 380.315
kommen 433.125 232.653

Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D


2.2. Datenaufbereitung

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.



Dies ist Text, der auf der Seite erscheint. Es folgt der Verweis auf eine Fußnote1.

Anmerkungen

  1. Dies ist der Fußnoten-Text.