Klassifikation von Stützverben: bringen, kommen, finden: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
Zeile 3: Zeile 3:
 
=== 1. Problemstellung und Projektkontext ===
 
=== 1. Problemstellung und Projektkontext ===
  
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Da-ta-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete  Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Treffer-listen aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.
+
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete  Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.
  
Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird.  SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrak-ten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntak-tisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präposition-alphrase (Beispiel 1.2):
+
Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird.  SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):
  
 
1.1 Die Methoden '''fanden''' keine '''Anwendung'''.
 
1.1 Die Methoden '''fanden''' keine '''Anwendung'''.
Zeile 11: Zeile 11:
 
1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.
 
1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.
  
Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stütz-verben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Be-deutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getra-gen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.  
+
Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.  
  
 
1.3 Die Touristen '''fanden''' keine Unterkunft.
 
1.3 Die Touristen '''fanden''' keine Unterkunft.
Zeile 17: Zeile 17:
 
1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.
 
1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.
  
Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identi-fizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützver-ben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen  ausgegeben wer-den, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand ma-nuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwen-dungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.
+
Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen  ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.
  
Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von ma-nuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durch-geführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage um-fangreicher Korpusdaten untersucht wurden:
+
Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:
  
 
‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?
 
‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?
  
‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbe-reiche?  
+
‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?  
  
Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deut-schen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das me-thodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) be-schrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprach-bericht‘ Bezug.   
+
Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.   
  
Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluati-on dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationspro-jekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.  
+
Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.  
  
  

Version vom 5. August 2014, 11:36 Uhr

Automatische Klassifikation von Stützverbgefügen mithilfe von Data-Mining

1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden fanden keine Anwendung.

1.2 Klaus bringt seinen Wagen ins Rollen.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen fanden keine Unterkunft.

1.4 Klaus bringt seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

Zeitliche Entwicklung: Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

Textsortenspezifik: Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.


Dies ist Text, der auf der Seite erscheint. Es folgt der Verweis auf eine Fußnote1.

Anmerkungen

  1. Dies ist der Fußnoten-Text.