Klassifikation von Stützverben: bringen, kommen, finden: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(3.3 Verwendete Tools)
(4.1 Quantitative Evaluation)
Zeile 190: Zeile 190:
  
 
Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:
 
Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:
 +
 +
'''''Drei Tabellen einfügen. Wichtig.'''''
 +
 +
Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird gegenwärtig erprobt.
 +
 +
Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwi-schen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:
 +
 +
1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.
 +
 +
2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Kon-fidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.
 +
  
  

Version vom 5. August 2014, 13:49 Uhr

1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe sup-port‘) bezeichnet wird. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden fanden keine Anwendung.

1.2 Klaus bringt seinen Wagen ins Rollen.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: finden und bringen) entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘ . Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen fanden keine Unterkunft.

1.4 Klaus bringt seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie finden oder bringen ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie bringen, kommen, stehen, machen zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

Zeitliche Entwicklung: Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

Textsortenspezifik: Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden . Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.


2. Datengrundlage und linguistische Vorarbeiten

2.1 Datenerhebung

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben bringen, kommen und finden ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘, das im Folgenden ‚DWDS-KK‘ abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereiche (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben bringen, finden und kommen sowie ihre Verteilung auf die vier Textsortenbereiche.

Verb Gesamt Belletristik Gebrauchsliteratur Wissenschaft Zeitung
bringen 64.629 18.006 - 27,86% 14.301 - 22,13% 12.653 - 19,58% 19.669 - 30,43%
finden 82.162 21.704 - 26,42% 17.215 - 20,95% 21.345 - 25,98% 21.898 - 26,65%
kommen 165.094 71.399 - 43,25% 36.068 - 21,85% 23.924 - 14,49% 33.703 - 20,41%

Tabelle 1: Vorkommensfrequenzen im DWDS-KK


Das Wikipedia-Korpus/Artikelseiten (‚Wiko-A‘) und das Wikipedia-Korpus/Diskussionsseiten (‚Wiko-D‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben bringen, finden und kommen in den beiden Teilkorpora.

Verb Wiko-A Wiko-D
bringen 124.675 69.582
finden 333.262 380.315
kommen 433.125 232.653

Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D


2.2. Datenaufbereitung

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

Hier noch Bild einfügen. Wichtig.


2.3 Spezifikation linguistischer Merkmale für die Klassifikationsverfahren

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgende Beispielsätze verwiesen:

1.1 Sein Mut findet überall Anerkennung.
1.1.1 Sein Mut wird überall Anerkennung finden.
1.1.2 Sein Mut hat überall Anerkennung gefunden.
1.1.3 Klaus versucht, überall Anerkennung zu finden.
1.1.4 Klaus hofft, dass sein Mut überall Anerkennung findet.
1.1.5 Klaus hofft, dass sein Mut überall Anerkennung finden wird.
1.1.6 Sein Mut hat überall die Anerkennung der Anwesenden gefunden.
1.1.7 Sein Mut hat überall die Anerkennung, nach der er fortwährend sucht, gefunden.
1.1.8 Sein Mut ist der Grund für die Anerkennung, die er überall findet.
1.1.9 Anerkennung hat sein Mut überall gefunden.
1.2 Klaus bringt den Wagen zum Stehen.
1.2.1 Klaus wird den Wagen zum Stehen bringen.
1.2.2 Klaus hat den Wagen zum Stehen gebracht.
1.2.3 Klaus versucht, den Wagen zum Stehen zu bringen.
1.2.4 Klaus hofft, dass er den Wagen zum Stehen bringt.
1.2.5 Klaus hofft, dass er den Wagen zum Stehen bringen wird.
1.2.6 Klaus bringt den Wagen, dessen Bremsen defekt sind, zum Stehen.
1.2.7 Zum Stehen lässt sich der Wagen bei diesem Gefälle niemals bringen.


2.3.1 Das prädikative Nomen

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präposi-tional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).


Tabelle einfügen. Wichtig.


2.3.2 Das Stützverb

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

Tabelle einfügen. Wichtig.


3. Beschreibung der Data-Mining-Experimente

3.1 Vorüberlegungen und Aufbau der Experimente

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand dessen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

  1. Bags-of-Words-Ansatz (BoW): ohne linguistische Aufbereitung der Daten
  2. BoW + PoS-Tags: mit Wortartenannotationen für jedes Textwort,
  3. Linguistische Expertise (Expert): Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).


3.2 Technische Beschreibung der Experimente

3.2.1 Vorverarbeitung

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

3.2.1.1 Bags-of-Words

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

3.2.1.2 Bags-of-Words + PoS-Tags

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

3.2.1.3 Linguistische Expertise

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

3.2.2 Klassifikationsaufgabe

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

3.3 Verwendete Tools

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendetet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Eva-luation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

  1. Einlesen der Texte,
  2. Erzeugen der Wortvektoren,
  3. Kreuzvalidierung mit SVM.

Bild einfügen. Wichtig.

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleichviele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.


4. Evaluation

4.1 Quantitative Evaluation

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

Drei Tabellen einfügen. Wichtig.

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird gegenwärtig erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwi-schen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Kon-fidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.






Dies ist Text, der auf der Seite erscheint. Es folgt der Verweis auf eine Fußnote1.

Anmerkungen

  1. Dies ist der Fußnoten-Text.