Klassifikation von Stützverben: bringen, kommen, finden: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(2.1 Datenerhebung)
(2.1 Datenerhebung)
Zeile 42: Zeile 42:
 
! Verb    !! Gesamt  !! Belletristik    !! Gebrauchsliteratur !! Wissenschaft    !! Zeitung
 
! Verb    !! Gesamt  !! Belletristik    !! Gebrauchsliteratur !! Wissenschaft    !! Zeitung
 
|-
 
|-
| bringen  || 64.629  || 18.006   27,86%  || 14.301   22,13%    || 12.653   19,58%  || 19.669   30,43%
+
| bringen  || 64.629  || 18.006 - 27,86%  || 14.301 - 22,13%    || 12.653 - 19,58%  || 19.669 - 30,43%
 
|-
 
|-
| finden  || 82.162  || 21.704   26,42%  || 17.215   20,95%    || 21.345   25,98%  || 21.898   26,65%
+
| finden  || 82.162  || 21.704 - 26,42%  || 17.215 - 20,95%    || 21.345 - 25,98%  || 21.898 - 26,65%
 
|-
 
|-
| kommen  || 165.094  || 71.399   43,25%  || 36.068   21,85%    || 23.924   14,49%  || 33.703   20,41%
+
| kommen  || 165.094  || 71.399 - 43,25%  || 36.068 - 21,85%    || 23.924 - 14,49%  || 33.703 - 20,41%
 
|-
 
|-
 
|}
 
|}

Version vom 5. August 2014, 12:17 Uhr

1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden fanden keine Anwendung.

1.2 Klaus bringt seinen Wagen ins Rollen.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen fanden keine Unterkunft.

1.4 Klaus bringt seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

Zeitliche Entwicklung: Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

Textsortenspezifik: Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.


2. Datengrundlage und linguistische Vorarbeiten

2.1 Datenerhebung

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben bringen, kommen und finden ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘, das im Folgenden ‚DWDS-KK‘ abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereiche (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben bringen, finden und kommen sowie ihre Verteilung auf die vier Textsortenbereiche.

Verb Gesamt Belletristik Gebrauchsliteratur Wissenschaft Zeitung
bringen 64.629 18.006 - 27,86% 14.301 - 22,13% 12.653 - 19,58% 19.669 - 30,43%
finden 82.162 21.704 - 26,42% 17.215 - 20,95% 21.345 - 25,98% 21.898 - 26,65%
kommen 165.094 71.399 - 43,25% 36.068 - 21,85% 23.924 - 14,49% 33.703 - 20,41%


Dies ist Text, der auf der Seite erscheint. Es folgt der Verweis auf eine Fußnote1.

Anmerkungen

  1. Dies ist der Fußnoten-Text.