Klassifikation von Stützverben: bringen, kommen, finden: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
Zeile 1: Zeile 1:
 
== Automatische Klassifikation von Stützverbgefügen mithilfe von Data-Mining ==
 
== Automatische Klassifikation von Stützverbgefügen mithilfe von Data-Mining ==
  
 +
=== 1. Problemstellung und Projektkontext ===
 +
 +
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Da-ta-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete  Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Treffer-listen aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszuson-dern.
 +
 +
Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird.  SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrak-ten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntak-tisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präposition-alphrase (Beispiel 1.2):
 +
 +
1.1 Die Methoden fanden keine Anwendung.
 +
1.2 Klaus bringt seinen Wagen ins Rollen.
 +
 +
Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stütz-verben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Be-deutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getra-gen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.
 +
 +
1.3 Die Touristen fanden keine Unterkunft.
 +
1.4 Klaus bringt seinen Sohn ins Schwimmbad.
 +
 +
Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identi-fizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützver-ben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen  ausgegeben wer-den, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand ma-nuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwen-dungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.
 +
 +
Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von ma-nuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durch-geführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage um-fangreicher Korpusdaten untersucht wurden:
 +
 +
‒ Zeitliche Entwicklung: Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?
 +
‒ Textsortenspezifik: Wie verteilen sich die Vorkommen über verschiedene Textsortenbe-reiche?
 +
 +
Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deut-schen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das me-thodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) be-schrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprach-bericht‘ Bezug. 
 +
 +
Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluati-on dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationspro-jekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.
  
  

Version vom 5. August 2014, 11:30 Uhr

Automatische Klassifikation von Stützverbgefügen mithilfe von Data-Mining

1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Da-ta-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Treffer-listen aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszuson-dern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrak-ten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntak-tisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präposition-alphrase (Beispiel 1.2):

1.1 Die Methoden fanden keine Anwendung. 1.2 Klaus bringt seinen Wagen ins Rollen.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stütz-verben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Be-deutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getra-gen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen fanden keine Unterkunft. 1.4 Klaus bringt seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identi-fizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützver-ben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen ausgegeben wer-den, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand ma-nuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwen-dungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von ma-nuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durch-geführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage um-fangreicher Korpusdaten untersucht wurden:

‒ Zeitliche Entwicklung: Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg? ‒ Textsortenspezifik: Wie verteilen sich die Vorkommen über verschiedene Textsortenbe-reiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deut-schen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das me-thodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) be-schrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprach-bericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluati-on dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationspro-jekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.


Dies ist Text, der auf der Seite erscheint. Es folgt der Verweis auf eine Fußnote1.

Anmerkungen

  1. Dies ist der Fußnoten-Text.