Kobra - Benutzerbeiträge [de]

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-07T16:39:07Z

Weber: /* Datenaufbereitung */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4.) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2. Kapitel). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. London: Continuum Press.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gruyter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Hauptseite

2016-03-07T16:35:08Z

Weber:

{| class="wikitable" width="99%"
|-
! <big> Herzlich willkommen </big>
|-
| style="background:#ffffff; padding:1em" |
[[Datei:Kwic-kobra-2geo.png|links]] [[Datei:KobRA-RM.png|rechts]] '''KobRA (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)''' war ein Verbundprojekt, das von September 2012 bis Dezember 2015 vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde (Förderkennzeichen: 01UG1245A-E).

Im Projekt arbeiteten Partner aus Informatik, Linguistik und Sprachtechnologie gemeinsam daran, die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) zu verbessern. Koordinatorin des Projekts war [http://germanistik.uni-mannheim.de/abteilungen/germanistische_linguistik/prof_dr_angelika_storrer/index.html Prof. Dr. Angelika Storrer (Universität Mannheim)].

<div style="clear: left"></div> Auf diesen Seiten bieten wir einen Überblick und detailliertere Informationen über:
* '''[[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]'''
* '''[[Team|die beteiligten Personen und Forschungseinrichtungen]]'''
* '''[[Fallstudien|die Fallstudien des Projekts]]'''
*'''[[Fachtagung 30.10.2015|die Projekt-Abschlusstagung]]'''
* '''sowie über Aktivitäten und Veröffentlichungen (s.u.).'''
|}

{| class="wikitable" width="99%"
|-
! <big> KobRA-Software </big>
|-
| style="background:#ffffff; padding:1em" |
[[Datei:Gnome-System-Software-Installer-48.png|links]] Die im Projekt entwickelten und erprobten Softwarekomponenten finden Sie unter: [[Software]]. Die Installation und Anwendung der Komponenten ist im [http://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:KobRA-Software-Handbuch_5.3.002.pdf KobRA-Software-Handbuch (PDF)] beschrieben.
|}

{| class="wikitable" width="49%" style="float:left; margin-right:1em"
|-
! <big>Aktivitäten</big>
|-
| style="background:#ffffff; padding:1em" |

*Auf der [[Fachtagung_30.10.2015:_Eindrücke_und_Einblicke|Fachtagung ''Neue Wege in der Nutzung von Textkorpora: Data Mining für die textorientierten Geisteswissenschaften]] am 30.10.2015 an der BBAW präsentierten die Projektbeteiligten ihre Ergebnisse und diskutierten weiterführende Perspektiven. Das Tagungsprogramm und E-Folien zu den Präsentationen und Postern finden Sie [[Fachtagung 30.10.2015|hier]].

*Vortrag ''A Data Mining Environment for Linguistic Research Based on CLARIN-D Language Resources'' (Katharina Morik, Thomas Bartz, Christian Pölitz, Angelika Storrer) auf der [http://dch2015.net/abstracts_submission.shtml ''DCH2015 - Interdisciplinary Conference on Digital Cultural Heritage''] am 28.-30. Oktober 2015 in Berlin.

* Panel: Am 29.10.15 fand ein von Michael Beißwenger & Thierry Chanier organisiertes Panel [http://tei2015.huma-num.fr/en/panelsround-tables/#acc-3 TEI across corpora, languages and genres: Towards a standard for the representation of social media and computer-mediated communication]" im Rahmen der [http://tei2015.huma-num.fr/en/ Jahreskonferenz der Text encoding Initiative] statt. Am Panel waren verschiedene KobRA-Akteure beteiligt.

* Vortrag: "Wikipedia as a corpus resource for linguistic research" (Angelika Storrer) auf der [http://ird-cmc-rennes.sciencesconf.org/ internationalen ''ird-cmc''-Konferenz in Rennes/Frankreich] am 23.10.2015.

* Panel: "Towards an encoding standard for social media and CMC: Experiences from German and French corpus projects using TEI" (organisiert von Michael Beißwenger & Thierry Chanier mit Beiträgen u.a. aus verschiedenen Korpusprojekten im KobRA-Kontext) auf der [http://ird-cmc-rennes.sciencesconf.org/ internationalen ''ird-cmc''-Konferenz in Rennes/Frankreich] am 23.10.2015.

*Posterpräsentation ''Verb Valency and Prepositional Complements in Learner Corpora - A Case Study in the German MERLIN Corpus'' (Tassja Weber) 3. Learner Corpus Research Conference (LCR) 2015, Nijmegen (Niederlande), 11-13.09.2015.

* Paper auf der Internationalen Fachtagung [http://www.kiv.zcu.cz/tsd2015/ ''Text, Speech and Dialogue'']: Pölitz, Christian; Bartz, Thomas; Morik, Katharina; Storrer, Angelika (2015): ''Investigation of Word Senses over Time using Linguistic Corpora'' In: Matousek, Vaclav et al. (Hrsg.): Text, Speech and Dialogue - 18th International Conference, TSD 2015, Plzen, Czech Republic, September 8-12, 2014. Proceedings, Springer.

----

Überblick über weitere Konferenzbeiträge und Projekt-Workshops: '''[[Aktivitäten]]'''
|}

{| class="wikitable" width="49%" style="float:left"
|-
! <big>Veröffentlichungen und Dokumentationen</big>
|-
| style="background:#ffffff; padding:1em" |
*Bartz,Thomas; Pölitz, Christian; Morik, Katharina; Storrer, Angelika (2015): '''Using Data Mining and the CLARIN Infrastructure to Extend Corpus-based Linguistic Research'''. In: Jan Odijk (Ed): [http://www.ep.liu.se/ecp_article/index.en.aspx?issue=116;article=001 Selected Papers from the CLARIN 2014 Conference], October 24-25, 2014, Soesterberg, The Netherlands, 1-13.

*Geyken, Alexander; Jurish, Bryan; Würzner, Kay-Michael (2016): '''KobRA-Integration in die Rechercheumgebung am Zentrum Sprache der BBAW'''. Technischer Bericht, BBAW. [[Media: KobRA_Technischer_Bericht_BBAW_Meilenstein_4b.pdf|Online-Veröffentlichung (PDF)]].

* Hinrichs, Marie (2016): '''Integration der KobRA-Verfahren in WebLicht'''. Technischer Bericht, Universität Tübingen. [[Media: KobRA_Technischer_Bericht_TUEB_Meilenstein_4b.pdf|Online-Veröffentlichung (PDF)]].

*Diewald, Nils; Kupietz, Marc (2016): ''' Integration der KobRA-Verfahren in die IDS-Infrastrukturen'''. Technischer Bericht, IDS Mannheim [[Media: KobRA_Technischer_Bericht_IDS_Meilenstein_4c.pdf|Online-Veröffentlichung (PDF)]].

*Bingel, Joachim; Diewald, Nils (2015): [http://www.ep.liu.se/ecp_article/index.en.aspx?issue=111;article=001 '''KoralQuery – a General Corpus Query Protocol''']. In: Proceedings of the Workshop on Innovative Corpus Query and Visualization Tools at NODALIDA 2015, Vilnius, Lithuania, May 11-13, 2015.

*Diewald,Nils; Bingel, Joachim (2015): [http://KorAP.github.io/Koral '''KoralQuery 0.3. Technical Report, Working draft''']. IDS, Mannheim, Germany.

*Beißwenger, Michael; Lüngen, Harald; Margaretha, Eliza; Pölitz, Christian (2014): '''Mining corpora of computer-mediated communication: Analysis of linguistic features in Wikipedia talk pages using machine learning methods.''' In: Faaß, Gertrud; Ruppenhofer, Josef (Hrsg.): Workshop Proceedings of the 12th Edition of the Konvens Conference. Hildesheim, Germany, October 8-10, 2014. Hildesheim: Universitätsverlag, 42-47. [http://www.uni-hildesheim.de/konvens2014/data/konvens2014-workshop-proceedings.pdf Proceedings-Band als PDF]

*Thomas Bartz, Michael Beißwenger, Christian Pölitz, Nadja Radtke & Angelika Storrer (2014): '''Neue Möglichkeiten der Arbeit mit strukturierten Sprachressourcen in den Digital Humanities mithilfe von Data-Mining.''' [http://dharchive.org/paper/DH2014/Poster-894.xml Online Proceedings of the Digital Humanities 2014 annual international conference of the Alliance of Digital Humanities Organizations], Universität Lausanne, 10. Juli 2014

*Pölitz, Christian; Bartz, Thomas; Beißwenger, Michael (2014): '''Überwachte und unüberwachte Disambiguierung von KwiC-Snippets bei der Suche in großen Textkorpora. Data-Mining-Verfahren des KobRA-Projekts, Stand 08/2014.''' Technischer Bericht, Technische Universität Dortmund. [[Media: KobRA-MS2_Verfahren.pdf|Online-Veröffentlichung (PDF)]]

*Didakowski, Jörg; Radtke, Nadja (2014): '''Nutzung des DWDS-Wortprofils beim Aufbau eines lexikalischen Informationssystems zu deutschen Stützverbgefügen. ''' In: Abel, Andrea; Vettori, Chiara; Ralli, Natascia (Hrsg.): Proceedings of the XVI EURALEX International Congress: The User in Focus. 15-19 July 2014, Bolzano/Bozen: EURAC research, 345-353. [http://euralex2014.eurac.edu/en/callforpapers/Documents/EURALEX%202014_gesamt.pdf Online-Veröffentlichung (PDF)]

----

Überblick über weitere Veröffentlichungen mit Projektbezug: '''[[Publikationen]]'''
|}

Fallstudien

2016-03-07T16:33:38Z

Weber:

Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:

# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.

Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.

*[[Visualisierung von diachronen Kollokationen]]
*[[Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten]]
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]
*[[Klassifikation von Stützverben: bringen, kommen, finden]]

*Klassifikation von Besonderheiten der Sprache in sozialen Medien:
Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities):
Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Aussondern von Präfixverben:
Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung ''WebLicht'' gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.

Fallstudien

2016-03-07T16:33:21Z

Weber:

Fallstudien

2016-03-07T16:32:48Z

Weber:

Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:

# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.

Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.

*[[Visualisierung von diachronen Kollokationen]]
*[[Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten]]
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]
*[[Klassifikation von Stützverben: bringen, kommen, finden]]

*Klassifikation von Besonderheiten der Sprache in sozialen Medien: Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities): Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Aussondern von Präfixverben: Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung ''WebLicht'' gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.

Fallstudien

2016-03-07T16:31:59Z

Weber:

Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:

# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.

Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.

*[[Visualisierung von diachronen Kollokationen]]
*[[Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten]]
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]
*[[Klassifikation von Stützverben: bringen, kommen, finden]]

*Klassifikation von Besonderheiten der Sprache in sozialen Medien
Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities)
Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Aussondern von Präfixverben
Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration
des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung WebLicht gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.

Fallstudien

2016-03-07T16:30:57Z

Weber:

Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:

# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.

Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.

*[[Visualisierung von diachronen Kollokationen]]
*[[Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten]]
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]
*[[Klassifikation von Stützverben: bringen, kommen, finden]]

*'''Klassifikation von Besonderheiten der Sprache in sozialen Medien'''
Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*'''Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities)'''
Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*'''Aussondern von Präfixverben'''
Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration
des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung WebLicht gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.

Fallstudien

2016-03-07T16:30:34Z

Weber:

Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:

# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.

Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.

*[[Visualisierung von diachronen Kollokationen]]
*[[Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten]]
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]
*[[Klassifikation von Stützverben: bringen, kommen, finden]]

*'''Klassifikation von Besonderheiten der Sprache in sozialen Medien'''
Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*'''Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities)'''
Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*'''Aussondern von Präfixverben'''
Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration
des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung WebLicht gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T10:59:22Z

Weber: /* Quantitative Evaluation */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4. Kapitel) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2. Kapitel). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. London: Continuum Press.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gruyter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T10:59:10Z

Weber: /* Datenaufbereitung */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4. Kapitel) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. London: Continuum Press.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gruyter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:53:54Z

Weber: /* Quantitative Evaluation */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== Evaluation ==

=== Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleich große zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan/Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc/Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini/John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung/Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter, 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T10:52:17Z

Weber: /* 9 Literatur */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wurde daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsannahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffenburg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum Press, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003). Accurate unlexicalized parsing. In ''Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03'', pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T10:48:11Z

Weber: /* 3.3 Berücksichtigung zeitlicher Entwicklungen */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wurde daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsannahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffenburg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum Press, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003). Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T10:47:11Z

Weber: /* 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wurde daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffenburg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum Press, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003). Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:42:17Z

Weber: /* Zitierte Literatur */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== Evaluation ==

=== Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan/Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc/Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini/John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung/Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter, 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Projektbeschreibung

2016-03-04T10:34:37Z

Weber: /* Methode */

__INHALTSVERZEICHNIS_ERZWINGEN__

=''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)=
<table width="730" border="0"><tr><td>
war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.

*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. [[Projektbeteiligte]])
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
*'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts:
</td></tr></table>

=Wissenschaftliche Anwendungsfelder ("''use cases''")=
<table width="730" border="0"><tr><td>
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen.

Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können.

Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert:

*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen.
*'''Lexikographie:''' Unterstützung des lexikographischen Arbeitsprozesses, z.B.: Suche nach interessanten, ungewöhnlichen Belegen (Metapher, Metonymie); Frequenzdaten zu disambiguierten lexikalischen Einheiten; Rekonstruktion und Visualisierung von Bedeutungswandel (z.B. ''billig'', ''toll'', ''zeitnah'') und von Prozessen der Ausdifferenzierung von Teilbedeutungen über Zeiträume und Textsortenbereiche hinweg (z.B. ''Ampel'' als Hängelampe, als Lichtzeichenanlage, als politische Koalition etc.).
*'''Diachronische Sprachforschung:''' Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum. Z.B. Entwicklung und Ausdifferenzierung des '''Systems deutscher Stützverbgefüge''' (''zur Anwendung bringen'', ''zur Anwendung kommen'' und ''Anwendung finden''). Studien zu Prozessen des lexikalischen Wandels (Metapher, Metonymie, Grammatikalisierung etc.). Einfluss von Kontaktsprachen und diatopischen Varietäten.

Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft).

Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant.
</td></tr></table>

=Methode=
<table width="730" border="0"><tr><td>
Im Projekt arbeiteten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kamen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienten '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellten. Die Data-Mining-Verfahren des Projektes setzten auf diesen Infrastrukturen auf. Dabei ergab sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung:

[[Bild:Kobra-architektur.jpg]]

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen wurden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei wurden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt:
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)''';
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)''';
*die''' aufgabenbezogene linguistische Annotation'''.
Die im Projekt entwickelten Verfahren wurden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration wurde der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.
</td></tr></table>

=Genutzte Ressourcen=
<table width="730" border="0"><tr><td>
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern).

'''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' waren strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale:

[[Bild:kobra-ressourcen.jpg]]
</td></tr></table>

=Entstehende Ressourcen=
<table width="730" border="0"><tr><td>
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''.
*'''Institut für deutsche Sprache (IDS) Mannheim:''' Integration in die Infrastruktur zur Pflege und zum Ausbau des '''[http://www1.ids-mannheim.de/kl/projekte/korpora/ Deutschen Referenzkorpus (DeReKo)]''', in '''[http://www.ids-mannheim.de/cosmas2/ COSMAS]''' bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform '''[http://www1.ids-mannheim.de/kl/projekte/korap.html KorAP]''' sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''.

Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]).
</td></tr></table>

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T10:16:19Z

Weber: /* Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. London: Continuum Press.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gruyter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T10:15:34Z

Weber: /* 9 Literatur */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffenburg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum Press, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003). Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T10:15:02Z

Weber: /* 9 Literatur */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffenburg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum Press, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003). Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pag-es 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T10:14:14Z

Weber: /* Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. London: Continuum Press.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T10:13:01Z

Weber: /* Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:08:34Z

Weber: /* Zitierte Literatur */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== Evaluation ==

=== Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter, 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:04:57Z

Weber: /* 6. Zitierte Literatur */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== Evaluation ==

=== Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter. 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:04:12Z

Weber: /* 5. Fazit und Anschlussarbeiten */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== Evaluation ==

=== Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== 6. Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter. 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:03:58Z

Weber: /* 4. Evaluation */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== Evaluation ==

=== Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== 6. Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter. 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:03:32Z

Weber: /* 3. Beschreibung der Data-Mining-Experimente */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== Beschreibung der Data-Mining-Experimente ==

=== Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== Technische Beschreibung der Experimente ===

==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== 4. Evaluation ==

=== 4.1 Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== 4.2 Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== 6. Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter. 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:02:47Z

Weber: /* 2. Datengrundlage und linguistische Vorarbeiten */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== 3. Beschreibung der Data-Mining-Experimente ==

=== 3.1 Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== 3.2 Technische Beschreibung der Experimente ===

==== 3.2.1 Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== 3.2.1.1 Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== 3.2.1.2 Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== 3.2.1.3 Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== 3.2.2 Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== 3.3 Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== 4. Evaluation ==

=== 4.1 Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== 4.2 Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== 6. Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter. 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Klassifikation von Stützverben: bringen, kommen, finden

2016-03-04T10:02:22Z

Weber: /* 1. Problemstellung und Projektkontext */

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt: Zu einem empirisch-quantitativ zu untersuchenden sprachlichen Phänomen lassen sich zwar umfangreiche Trefferlisten aus Korpora gewinnen. Diese Trefferlisten sind aber nicht unmittelbar nutzbar, weil sie viele falsch positive Treffer enthalten, die mit der vorhandenen Korpustechnologie auch nicht weiter ausgefiltert werden können. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, falsch positive Treffer aus großen Suchtrefferlisten auszusondern.

Die Fallstudie bezieht sich auf Forschungen zu einem Konstruktionstyp, der in diesem Report als Stützverbgefüge (SVG, engl. ‚support verb construction‘, franz. ‚construction à verbe support‘) bezeichnet wird[[#Anmerkungen|1]]. SVG bestehen aus einem Verb (‚Stützverb‘) und einem meist abstrakten Nomen (‚prädikatives Nomen‘), die gemeinsam einen Prädikatsausdruck bilden. Syntaktisch lassen sich zwei Typen unterscheiden: Stützverben mit dem prädikativen Nomen im Akkusativ (Beispiel 1.1) und Stützverben mit dem prädikativen Nomen in der Präpositionalphrase (Beispiel 1.2):

1.1 Die Methoden '''fanden''' keine '''Anwendung'''.

1.2 Klaus '''bringt''' seinen Wagen '''ins Rollen'''.

Die Beispiele 1.1 und 1.2 zeigen ein für unsere Studie relevantes Charakteristikum von Stützverben: Stützverben sind zwar aus Vollverben (hier: ''finden'' und ''bringen'') entstanden; ihre Bedeutung ist aber im Zuge der Grammatikalisierung ‚verblasst‘[[#Anmerkungen|2]]. Die zentrale Funktion der Stützverben besteht darin, gemeinsam mit dem prädikativen Nomen ein komplexes Prädikat zu bilden; die Bedeutung dieses komplexen Prädikats wird hauptsächlich vom Nomen getragen. Wenn man die Stützverbgefüge in 1.1 und 1.2 mit Beispielen wie 1.3 und 1.4 vergleicht, in denen dasselbe Verb als Vollverb auftritt, wird der Unterschied zwischen ‚verblasstem‘ Stützverb und Vollverb deutlich.

1.3 Die Touristen '''fanden''' keine Unterkunft.

1.4 Klaus '''bringt''' seinen Sohn ins Schwimmbad.

Das Problem, an dem die hier beschriebenen Experimente ansetzen, besteht darin, dass man Vollverbverwendungen wie 1.3 und 1.4 nicht zuverlässig anhand morphosyntaktischer Merkmale von Stützverbverwendungen wie in 1.1 und 1.2 unterscheiden kann. Für die Identifizierung von Stützverben ist vielmehr ein semantisches Merkmal (‚semantisch verblasst‘) relevant, das in den großen Referenzkorpora (z.B. in den Korpora der Projektpartner: DWDS, vgl. Geyken 2007; DeReKo, vgl. Kupietz et al. 2010, 2009; TüBa-D/Z, vgl. Telljohann et al. 2012) nicht annotiert bzw. nicht regelbasiert zu ermitteln ist. Wer Frequenzdaten zu Stützverben in Korpora erheben und vergleichen möchte, steht deshalb immer vor der Aufgabe, aus der Gesamtmenge der Treffer, die zu einem Verb wie ''finden'' oder ''bringen'' ausgegeben werden, die Teilmenge der Treffer zu bestimmen, in denen das Verb als Stützverb vorkommt. Da typische Stützverben wie ''bringen'', ''kommen'', ''stehen'', ''machen'' zu den hochfrequenten Verben des Deutschen zählen, kann eine solche Teilmengenbildung nur mit großem Zeitaufwand manuell-intellektuell durchgeführt werden. Manuelle Klassifikationen von Korpusbelegen haben zudem ergeben, dass das Verhältnis zwischen Stützverbverwendungen und Vollverbverwendungen bei den verschiedenen Verben erheblich variiert (vgl. Kamber 2008, S. 461, Storrer 2013). Dies bedeutet, dass die Anteile für jedes Verb einzeln ermittelt werden müssen.

Zur Lösung des Problems wurden in der hier beschriebenen Fallstudie auf der Basis von manuell vorklassifizierten Daten verschiedene Experimente mit Data-Mining-Verfahren durchgeführt und evaluiert, die dabei helfen, aus einer Treffermenge zu einem Verb die Teilmenge der Stützverbverwendungen zu identifizieren (vgl. 3.2.2). Diese manuell vorklassifizierten Daten stammen aus einem Projekt, in dem die folgenden Teilfragen auf der Grundlage umfangreicher Korpusdaten untersucht wurden:

‒ '''Zeitliche Entwicklung''': Verändern sich die Frequenz und der Bestand der Verben und der Gefüge über das 20. Jahrhundert hinweg?

‒ '''Textsortenspezifik''': Wie verteilen sich die Vorkommen über verschiedene Textsortenbereiche?

Es handelte sich um ein Teilprojekt im Vorhaben ‚Bericht zur Lage der deutschen Sprache‘, das gemeinsam von der Union der deutschen Akademien der Wissenschaften und der Deutschen Akademie für Sprache und Dichtung durchgeführt und 2009-2011 von der Thyssen-Stiftung finanziell gefördert wurde (vgl. Sprachbericht 2013). Die Fragestellungen, das methodische Vorgehen und die Ergebnisse des Projekts sind ausführlich in Storrer (2013) beschrieben. Wir nehmen im Folgenden auf dieses Projekt mit dem Ausdruck ‚Projekt Sprachbericht‘ Bezug.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Die Verfahren und ihre Weiterentwicklung werden u.a. in ein Dissertationsprojekt einfließen, bei dem das System und der Bestand deutscher Stützverbgefüge für die Lehre im Bereich Deutsch als Fremdsprache aufbereitet und in einem wiki-basierten Wörterbuch dargestellt werden[[#Anmerkungen|3]]. Abschnitt 5 gibt einen Ausblick auf die geplanten Erweiterungen.

== 2. Datengrundlage und linguistische Vorarbeiten ==
=== 2.1 Datenerhebung ===

Die in den Experimenten genutzten Daten wurden im Zuge des Projekts Sprachbericht erhoben. Aus den insgesamt in diesem Projekt erhobenen Datenbeständen haben wir für die Experimente die Verben ''bringen'', ''kommen'' und ''finden'' ausgewählt, weil zu diesen Daten umfangreiche manuelle Annotationen vorhanden waren. Die Daten stammen aus zwei Korpusbeständen, die im Folgenden kurz skizziert werden:

Das '''Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘''', das im Folgenden '''‚DWDS-KK‘''' abgekürzt wird, ist ein Referenzkorpus zur deutschen Sprache des 20. Jahrhunderts, das an der Berlin-Brandenburgischen Akademie der Wissenschaften aufgebaut wurde. Es umfasst 100.600.993 Textwörter, die in ausgewogenem Verhältnis über die Dekaden des 20. Jahrhunderts verteilt sind. Da jede Dekade auch eine vergleichbare Zahl von Textwörtern aus vier verschiedenen Textsortenbereichen (Belletristik, Gebrauchstexte, Wissenschaft, Zeitung) enthält, eignet sich das Korpus nicht nur für die Untersuchung der Frequenzentwicklung über das 20. Jahrhundert hinweg, sondern auch für den Vergleich der Vorkommensfrequenzen in den unterschiedlichen Textsortenbereichen. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung.

Die Daten wurden von uns am 09.02.2012 erhoben, dabei unterteilten wir die Datensätze nach den vier Textsortenbereichen. Tabelle 1 zeigt die Vorkommensfrequenzen zu den Verben ''bringen'', ''finden'' und ''kommen'' sowie ihre Verteilung auf die vier Textsortenbereiche.

{| class="wikitable"
|-
! Verb !! Gesamt !! Belletristik !! Gebrauchsliteratur !! Wissenschaft !! Zeitung
|-
| bringen || 64.629 || 18.006 - 27,86% || 14.301 - 22,13% || 12.653 - 19,58% || 19.669 - 30,43%
|-
| finden || 82.162 || 21.704 - 26,42% || 17.215 - 20,95% || 21.345 - 25,98% || 21.898 - 26,65%
|-
| kommen || 165.094 || 71.399 - 43,25% || 36.068 - 21,85% || 23.924 - 14,49% || 33.703 - 20,41%
|-
|}
Tabelle 1: Vorkommensfrequenzen im DWDS-KK

Das Wikipedia-Korpus/Artikelseiten (‚'''Wiko-A'''‘) und das Wikipedia-Korpus/Diskussionsseiten (‚'''Wiko-D'''‘) spiegeln die Version der Deutschen Wikipedia vom 13.08.2010 wider, die linguistisch am UKP (Ubiquitous Knowledge Processing Lab) der TU Darmstadt aufbereitet und für das Projekt zur Verfügung gestellt wurden (vgl. Zesch et al. 2007). Wiko-A umfasst 558.882.506 Textwörter; Wiko-D umfasst 234.770.301 Textwörter.

Tabelle 2 zeigt die die Vorkommensfrequenzen der Verben ''bringen'', ''finden'' und ''kommen'' in den beiden Teilkorpora.

{| class="wikitable"
|-
! Verb !! Wiko-A !! Wiko-D
|-
| bringen || 124.675 || 69.582
|-
| finden || 333.262 || 380.315
|-
| kommen || 433.125 || 232.653
|-
|}
Tabelle 2: Vorkommensfrequenzen in Wiko-A und Wiko-D

=== 2.2. Datenaufbereitung ===

Wie bereits in Abschnitt 1 erläutert, lassen sich Vollverbverwendungen anhand der Form oder morphosyntaktischer Merkmale nicht zuverlässig von Stützverbverwendungen unterscheiden. Im Projekt Sprachbericht konnten wir deshalb bei den Untersuchungen zur Frequenzentwicklung und zur Textsortenspezifik nur mit Stichproben arbeiten, die wir im Hinblick auf verschiedene Merkmale manuell vorklassifiziert haben (vgl. im Detail Storrer 2013).

Die vom jeweiligen Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden allesamt in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Verb farbig bzw. durch festgelegte Sonderzeichen hervorgehoben (z.B.: „Sein Mut &&findet&& überall die Anerkennung der Anwesenden“). Bei den Korpora Wiko-A und Wiko-D wurde nur ein Satzkontext ausgegeben; die Snippets des DWDS-KK umfassen drei Sätze.

Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt. Auch die manuelle Annotation linguistischer Merkmale wird in separaten Spalten festgehalten. Annotiert wurde, ob das Verb im Snippet als Stützverb verwendet wird; diese Information war für die im Folgenden beschriebenen Experimente relevant. Die Annotation für das Projekt Sprachbericht berücksichtigte aber noch weitere linguistische Merkmale (vgl. Abbildung 2), die für künftige Experimente genutzt werden können.

[[Datei:Abb 1 Kobra MS1a.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-KK für das Verb finden, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten in separaten Spalten]]

[[Datei:Abb 2 MS1a.jpg|mini|1000px|links|Abbildung 2: Ergebnisse der manuellen Analysen mit Hinweisen zur Annotation als Kommentare (Ausschnitt aus der Datei zu ''kommen'', DWDS-KK)]]

 

=== 2.3 Spezifikation linguistischer Merkmale für die Klassifikationsverfahren ===

Aus den Forschungsarbeiten zu Stützverbgefügen sind Erkenntnisse zu morphosyntaktischen und distributionellen Merkmalen von Stützverbgefügen hervorgegangen, die sich für die automatischen Klassifikationsverfahren nutzen lassen. Als eine Vorarbeit für die in Abschnitt 3 beschriebenen Experimente wurden Merkmale zusammengestellt, die sich als Indizien für das Vorliegen von SVG werten lassen. Für die Experimente wurden zwei Merkmalslisten erstellt: Die in 2.3.1 dargestellte Liste bezieht sich auf typische Merkmale von prädikativen Nomina; die in 2.3.2 dargestellte Liste bezieht sich auf typische Merkmale von Stützverben.

Zur Erläuterung der Merkmale wird in beiden Tabellen auf die folgenden Beispielsätze verwiesen:

# Sein Mut '''findet''' überall '''Anerkennung'''.
## Sein Mut '''wird''' überall '''Anerkennung finden'''.
## Sein Mut '''hat''' überall '''Anerkennung gefunden'''.
## Klaus versucht, überall '''Anerkennung zu finden'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung findet'''.
## Klaus hofft, dass sein Mut überall '''Anerkennung finden wird'''.
## Sein Mut '''hat''' überall die '''Anerkennung''' der Anwesenden '''gefunden'''.
## Sein Mut '''hat''' überall die '''Anerkennung''', nach der er fortwährend sucht, '''gefunden'''.
## Sein Mut ist der Grund für die '''Anerkennung''', die er überall '''findet'''.
## '''Anerkennung hat''' sein Mut überall '''gefunden'''.
# Klaus '''bringt''' den Wagen '''zum Stehen'''.
## Klaus '''wird''' den Wagen '''zum Stehen bringen'''.
## Klaus '''hat''' den Wagen '''zum Stehen gebracht'''.
## Klaus versucht, den Wagen '''zum Stehen zu bringen'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringt'''.
## Klaus hofft, dass er den Wagen '''zum Stehen bringen wird'''.
## Klaus '''bringt''' den Wagen, dessen Bremsen defekt sind, '''zum Stehen'''.
## '''Zum Stehen''' lässt sich der Wagen bei diesem Gefälle niemals '''bringen'''.

==== 2.3.1 Das prädikative Nomen ====

Stärkstes Indiz für das Vorliegen eines Stützverbgefüges in einem Satz sind zunächst (A) formale/distributionelle und (B) morphosyntaktische Merkmale, die sich auf die (z.T. präpositional angebundene) nominale Komponente des Gefüges beziehen. Die Reihenfolge der aufgeführten Merkmale gibt jeweils deren Priorisierung an (oben=höchste).

[[Datei:Tabelle 3 MS1a.jpg|mini|1000px|links|Tabelle 3: Indizien für das Vorliegen eines prädikativen Nomens]]

 

==== 2.3.2 Das Stützverb ====

Indizien für das Vorliegen eines Stützverbs lassen sich weiterhin aus folgenden Merkmalen des Stützverbs ableiten:

[[Datei:Tabelle 4 MS1a.jpg|mini|1000px|links|Tabelle 4: Indizien für das Vorliegen eines Stützverbs]]

 

== 3. Beschreibung der Data-Mining-Experimente ==

=== 3.1 Vorüberlegungen und Aufbau der Experimente ===

Wie bereits erläutert, lassen sich Stützverbverwendungen von den Vollverbverwendungen, aus denen sie hervorgegangen sind, anhand morphosyntaktischer Merkmale nicht zuverlässig unterscheiden. Ausschlaggebend für die Klassifikation ist ein semantisches Merkmal (‚semantisch verblasst‘, s. 1.), das die Anwendbarkeit regelbasierter Verfahren einschränkt. Für den Einsatz von Data-Mining-Verfahren spricht hingegen die Fähigkeit dieser Verfahren, im Wort-, bzw. morphosyntaktischen Kontext oder in den Belegmetadaten gegebene latente Informationen zu nutzen, um die Gefüge von den Konstruktionen der Restgruppe zu unterscheiden. Weil das zu klassifizierende Phänomen theoretisch klar umrissen ist und mit den manuell klassifizierten Datenbeständen Trainingsdaten in hinreichendem Umfang zur Verfügung stehen, empfiehlt sich der Einsatz eines maschinellen Lernverfahrens, das systematische statistische Auffälligkeiten in einer begrenzten Menge manuell klassifizierter Daten auf ungesichtete Daten anwenden und für deren automatische Klassifizierung nutzen kann. Konkret wird bei einem solchen Verfahren die Klassifikation durch komplexe statistische Abbildungen von Suchtreffern (‚Treffer-Snippets‘) und darin enthaltenen Wörtern bzw. anderen Merkmalen auf Kategorien maschinell gelernt. Die Abbildungen, sogenannte ‚Classifier‘, können genutzt werden, um einem Suchtreffer oder einem Wort eine bestimmte Kategorie zuzuordnen.

Erste Ansätze automatischer Klassifikationsverfahren in der Informatik gehen in die frühen 60er Jahre zurück. Bereits Maron (1965) schlägt ein Verfahren zur automatischen Klassifikation von Dokumenten anhand des jeweiligen Inhalts vor. Ein entscheidender Fortschritt in diesem Bereich wurde mit der Anwendung sogenannter ‚Support-Vector-Maschinen‘ erzielt, die es erlauben, mit großen Mengen an Merkmalen eines Dokuments (auch irrelevante und redundante Merkmale sind möglich) effizient ein Klassifikationsmodell zu lernen. In diesem Zusammenhang ist besonders die Arbeit von Joachims (1998) hervorzuheben. Classifier werden inzwischen in vielen verschiedenen Anwendungsbereichen eingesetzt, Möglichkeiten und Grenzen der automatischen Klassifikation von Suchtreffern aus Korpora sind hingegen kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche Merkmale als sogenannte ‚Features‘ das maschinelle Lernen von Classifiern verbessern und wie Treffer-Snippets und Merkmale idealerweise für das Verfahren zu repräsentieren sind, sind interessante und unerforschte Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Auf Grundlage der in Abschnitt 2 beschriebenen Daten wurden in drei unterschiedlichen Treatments jeweils Classifier gelernt sowie anschließend quantitativ und qualitativ evaluiert. Die in Abschnitt 3.2 beschriebenen Treatments unterscheiden sich in den Features, die für das maschinelle Lernen zur Anwendung gebracht wurden, wobei die Tiefe der Datenanreicherung schrittweise gesteigert wird:

# '''Bags-of-Words-Ansatz (BoW):''' ohne linguistische Aufbereitung der Daten
# '''BoW + PoS-Tags:''' mit Wortartenannotationen für jedes Textwort,
# '''Linguistische Expertise (Expert):''' Berücksichtigung morphosyntaktischer und distributioneller Merkmale aus den Listen in 2.3.1 und 2.3.2.

Als quantitatives Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Klassifikationsverfahren dar (vgl. Manning et al. 2008). Zusätzlich werden die Ergebnisse manuell qualitativ evaluiert (s. 4.2).

=== 3.2 Technische Beschreibung der Experimente ===

==== 3.2.1 Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für maschinelle Lernverfahren dienen zu können. Für die Repräsentation der Snippets existieren unterschiedliche Ansätze. Anknüpfend an 3.1 wurden folgende Ansätze erprobt:

===== 3.2.1.1 Bags-of-Words =====

Zum einen nutzten wir einen Bags-of-Words-Ansatz, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

===== 3.2.1.2 Bags-of-Words + PoS-Tags =====

Zweitens wurden Part-of-Speech-Tags (PoS-Tags) verwendet, um die Wortartenzugehörigkeit der Wörter in jedem Beleg-Satz und damit mögliche überzufällige Kumulierungen bestimmter Wortarten zu repräsentieren. Die PoS-Tags wurden mithilfe des Open-NLP Taggers (Morton et al. 2005) und des Stanford Parsers (Klein & Manning 2003) für deutschsprachige Daten automatisch annotiert (z.B.: „Sein/PPOSAT Mut/NN findet/VVFIN überall/ADJD die/HD Anerkennung/NN der/ART Anwesenden/NN“). Diese Tags werden ähnlich zum Bags-of-Words-Ansatz auf einen Vektor abgebildet, wobei dann jede Komponente für das Vorhandensein eines bestimmten PoS-Tags in den Treffer-Snippets steht. Dieser Ansatz macht am meisten Sinn, wenn jedes Snippet nur aus einem einzigen Satz besteht. Deshalb haben wir für die Experimente dieses Treatments nur jeweils denjenigen Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

===== 3.2.1.3 Linguistische Expertise =====

Drittens wurde eine Möglichkeit der Repräsentation bereits vorhandener linguistischer Expertise für den Classifier erprobt. Mithilfe eines regelbasierten Verfahrens wurde dazu für die Treffer-Snippets überprüft, welche vorgegebenen morphosyntaktischen und distributionellen Merkmale der in 2.3 beschriebenen Listen zutreffen und das Zu- bzw. Nichtzutreffen jeweils auf einen binären Vektor abgebildet. Nach dieser Vorgehensweise wird jedes Snippet also durch einen Vektor repräsentiert, bei dem jede Komponente für das Vorhanden- oder Nicht-Vorhandensein eines bestimmten morphosyntaktischen bzw. distributionellen Merkmals steht. Die Merkmale beziehen sich z.T. auf PoS- und syntaktische Annotationen und sind auf die Satzebene beschränkt. Daher wurde als Basis erneut nur jeweils derjenige Satz der Snippets berücksichtigt, der die potenzielle Stützverbform (gekennzeichnet durch „&&“) enthält.

==== 3.2.2 Klassifikationsaufgabe ====

Wie in Abschnitt 1 erläutert, besteht die zu lösende Aufgabe in der Bereitstellung eines Verfahrens zur Klassifikation von Treffer-Snippets auf das Vorkommen bestimmter Verben in der Verwendung als Stützverben bzw. in anderen Verwendungen. Formal wollen wir einen Classifier c(d) lernen, der für einen gegebenen Satz ein bestimmtes Verb als Stützverb oder Verb einer Restmenge (Vollverben plus weitere Verwendungen) klassifiziert.

Ein für diese Aufgabe geeignetes Verfahren ist die ‚Stützvektormethode‘ (kurz SVM), deren Überlegenheit auch für Aufgaben der Dokumentklassifikation in der Dortmunder Informatik bereits Joachims (1998) gezeigt hat. Neu ist jedoch die Anwendung der SVM auf Treffer-Snippets aus Korpora. Formal wird dabei eine lineare Hyperebene für den Raum gesucht, der durch die bei der Vorverarbeitung (s. 3.2.1) erzeugten Wortvektoren aufgespannt ist. Die manuell klassifizierten Trainingsdaten bestimmen die Lage dieser Hyperebene, die so definiert ist, dass sie den Raum der Treffer-Snippets mit Stützverben vom Raum der Treffer-Snippets ohne Stützverben trennt und möglichst weit von den jeweils am nächsten liegenden Wortvektoren entfernt ist. Dies hat verschiedene Vorteile: Für die exakte Lagebestimmung der Hyperebene werden nicht alle Wortvektoren (d.h. Snippets) benötigt, sondern nur die am nächsten liegenden sogenannten ‚Stützvektoren‘. Außerdem garantiert der möglichst breite Rand um die Hyperebene, dass auch solche Treffer-Snippets noch zutreffend klassifiziert werden können, die von den Trainingsdaten geringfügig abweichen.

Wir verwenden einen binären Classifier, der definiert ist auf Basis einer linearen Funktion g(d) = <w,φ(d)(d)> + b, wobei w ein Vektor in Raum RN ist, b ein Bias-Term und <.,.> das Skalarprodukt in R. Der Classifier ist weiterhin definiert durch c(d) = 1, falls g(d) >= 0 und c(d) = -1, falls g(d) < 0. Dabei steht 1 für das Vorhandensein eines Stützverbs und -1 für dessen Nicht-Vorhandensein. Die Aufgabe ist nun, den optimalen Vektor w zu bestimmen. Dieser soll so gewählt werden, dass g(d) >= 0 ist für alle Sätze d, die ein Stützverb enthalten, und g(d)<0 ist für alle Sätze, die kein Stützverb enthalten. Dazu werden die manuell klassifizierten Trainingsdaten benötigt. Der Vektor w wird so gewählt, dass die Hyperebene g(d) die Menge der Trainingsdaten wie oben verlangt trennt. Weiterhin muss w so gewählt werden, dass die Klassifikation neuer, ungesichteter Treffer-Snippets mit hoher Wahrscheinlichkeit richtig vorhergesagt wird. Dies kann man gewährleisten, wenn die Trainingsdaten im Raum der Wortvektoren, also {φ(d)}, einen maximalen Abstand zu g(d) haben. Details zum Verfahren siehe Cristianini & Shawe-Tayler (2004).

=== 3.3 Verwendete Tools ===

Für sämtliche Experimente wurde das Data-Mining-Tool ‚RapidMiner‘ (früher: ‚YALE‘, Mierswa et al. 2006) verwendet, das eine Vielzahl an Data-Mining-Verfahren sowie Methoden zum Einlesen von Daten und zur Evaluierung von Lernverfahren beinhaltet. Weiterhin verfügt RapidMiner über eine Erweiterung, die das Einlesen und Transformieren von Texten in die verschiedenen Repräsentationsformen ermöglicht.

Für die Vorverarbeitung wurde des Text-Mining-Plugin des RapidMiner verwendet, das das zeilenweise Einlesen von Excel-Tabellen ermöglicht. Mithilfe des Plugins konnten die in den Experimenten verwendeten Datensätze zusammen mit den Informationen aus den manuellen Analysen (vgl. Abschnitt 2.2) eingelesen und weiterverarbeitet werden. Anschließend erfolgte durch geeignete Operatoren die Abbildung in Wortvektoren und das Training sowie die Evaluation optimaler Support-Vektor-Maschinen (SVM).

In Abbildung 3 sind die einzelnen Schritte visualisiert:

# Einlesen der Texte,
# Erzeugen der Wortvektoren,
# Kreuzvalidierung mit SVM.

[[Datei:Abb 3 MS1a.jpg|mini|1000px|links|Abbildung 3: Data-Mining-Prozess]]

 

Durch den Operator ‚Read CSV‘ werden die Treffer-Snippets zeilenweise eingelesen. In jeder Zeile steht ein Treffer-Snippet und die manuelle Klassifikation: Stützverb oder Rest. Der nächste Operator ‚Filter Examples‘ filtert alle Snippets, die keine Informationen darüber enthalten, ob ein Stützverb vorliegt, oder nicht. Danach werde alle Snippets gemischt und mittels des Operators ‚Data to Document‘ in eine interne Datenstruktur kopiert, aus welcher im nächsten Schritt durch den Operator ‚Process Documents‘ die Wortvektoren erzeugt werden. Im Weiteren wird durch ‚Set Role‘ das Label als Zielvariable für einen Classifier deklariert und mittels ‚Sample‘ gleich viele Snippets mit und ohne Stützverb gezogen. Im Anschluss werden die Daten an einen komplexen Operator weitergeleitet, der die optimalen SVM-Parameter und die Güte des Verfahrens mittels Fünffach-Kreuzvalidierung bestimmt. Im letzten Schritt wird das Gütekriterium ausgegeben. Dies wurde für alle Datensätze durchgeführt.

== 4. Evaluation ==

=== 4.1 Quantitative Evaluation ===

Für die quantitative Evaluation des Verfahrens wurde eine Fünffach-Kreuzvalidierung durchgeführt. Dabei werden die manuell klassifizierten Daten fünfmal in fünf gleichgroße zufällige Mengen von Treffer-Snippets geteilt, wobei jeweils auf vier Mengen der Classifier gelernt, d.h. der optimale Vektor w und der Bias b bestimmt und auf der fünften Menge getestet wird. Als Gütekriterium für den Classifier dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Der Durchschnitt der bei den Einzelläufen ermittelten Güte des Classifiers ergibt die jeweiligen F1-Scores, die für die verwendeten Daten bislang zwischen 60 und 80% liegen, für die Wiko-A- und Wiko-D-Daten sogar tendenziell besser als für die Daten aus dem DWDS-KK. Grund dafür dürfte in erster Linie die wesentlich größere Menge an Trainingsdaten in den Wikipedia-Korpora sein, möglicherweise verbessern aber auch bestimmte textsortenspezifische Merkmale das Resultat. Die für die einzelnen Textsortenbereiche des DWDS-KK ermittelten F1-Scores variieren ebenfalls textsortenspezifisch. Die folgenden Tabellen 5-7 zeigen die F1-Scores für die einzelnen Textsortenbereiche des DWDS-KK in den drei Treatments:

[[Datei:Tabellen 5 bis 7 MS1a.jpg|mini|1000px|links|Tabellen 5-7]]

 

Überraschend ist außerdem die Überlegenheit bereits des BoW-Ansatzes gegenüber dem Lernen auf Basis festgelegter linguistischer Merkmale (‚Expert‘). Offensichtlich liefert die im Kontext von SVG auftretende Wortwahl entscheidende Hinweise für die Klassifizierung. Möglicherweise lassen sich die erzielten Ergebnisse aber verbessern, wenn BoW-Ansatz und linguistische Merkmale kombiniert werden. Dies wird im Projekt erprobt.

Zusammen mit der Vorhersage, ob ein gegebenes Treffer-Snippet ein Stützverb enthält, wird für jedes Snippet auch ein Konfidenzwert p für die statistische Sicherheit der Vorhersage geliefert. Dieser Wert gibt die Irrtumswahrscheinlichkeit für die Vorhersage an: je geringer der Betrag der Konfidenz, desto unsicherer die Klassifikation im jeweiligen Fall (Berechnung und Details s. Platt 1999, Rüping 2006). Für die getesteten Daten liegen die Konfidenzwerte zwischen -4 und +4. Dieser Konfidenzwert kann für verschiedene weitergehende Analyseschritte genutzt werden:

1. Vielversprechend scheint nach ersten Experimenten beispielsweise die Berücksichtigung des Konfidenzwertes bei der Ausweitung der manuell klassifizierten Trainingsdaten. Konkret könnten dazu aktiv solche Treffer-Snippets ausgewählt werden, die nur mit geringer Sicherheit als Stützverb bzw. Rest klassifiziert wurden. Auf diese Weise ließe sich sicherstellen, dass v.a. solche Snippets manuell klassifiziert werden, die die Güte des Classifiers möglichst wirksam steigern können. Aktuell werden Datensätze mit geringer Konfidenz aus dem DWDS-KK aktiv manuell nachanalysiert, um die Trainingsdatenmenge zu verbessern.

2. Konfidenzwerte lassen sich außerdem für anschließende qualitative Analysen oder Visualisierungen nutzen. Korpusnutzer könnten beispielsweise für bestimmte Fragestellungen nur die Menge der am sichersten klassifizierten Snippets berücksichtigen, die in den meisten Fällen einen erheblichen Anteil der Gesamttreffermenge ausmacht, der manuell mit vergleichbarem zeitlichem Aufwand nicht erreichbar wäre (s. 4.2). In Visualisierungen könnten die Konfidenzwerte genutzt werden, um potenziell unsichere Treffer (die ‚Grauzone‘) zu markieren.

=== 4.2 Qualitative Evaluation ===

Die unter 4.1 erläuterten, durch das Klassifikationsverfahren für jedes Treffer-Snippet ausgegebenen Konfidenzwerte wurden für weitergehende qualitative Analysen genutzt. Konkret sollte überprüft werden, inwiefern sich die Konfidenzwerte als Maß für die Zuverlässigkeit der automatischen Klassifikation mit der Einordnung der Snippets durch Experten decken.

Dazu wurde eine Zufallsstichprobe von automatisch klassifizierten Snippets der Wikipedia-Korpora Wiko-A und Wiko-D aus folgenden acht Wertebereichen gezogen und manuell überprüft:

# p >= -4 und < -3,
# p >= -3 und < -2,
# p >= -2 und < -1,
# p >= -1 und < 0,
# p >= 0 und < 1,
# p >= 1 und < 2,
# p >= 2 und < 3,
# p >= 3 und < 4.

Für jeden Wertebereich wurden 250 bzw. – für den Fall, dass die Trefferzahl unter 250 liegt – die Gesamtmenge der Treffer manuell gesichtet.
Die Ergebnisse bestätigen die Gültigkeit der durch das automatische Verfahren berechneten Konfidenz auch im Hinblick auf die intellektuelle Beurteilung der Treffer durch linguistische Experten. Die folgenden Tabellen 8-13 zeigen durchgängig, dass in den Bereichen p >= 0, in denen die durch das Verfahren automatisch als Stützverb-Belege klassifizierten Treffer liegen, auch aus Sicht der Experten der Anteil der Belege für Stützverben an der gesichteten Treffermenge überwiegt. Für die Bereiche p < 0 gilt entsprechend der umgekehrte Befund, in diesen Bereichen überwiegen bei automatischem Verfahren wie Experten die Treffer ohne Stützverben. In den Bereichen hoher Konfidenz beträgt die Übereinstimmung sogar annähernd 100%.
Interessant ist der Umgang des automatischen Verfahrens mit unvollständigen Snippets bzw. falsch positiven Treffern. Falsch Positive werden zutreffend überwiegend der Restgruppe zugeordnet. Unvollständige Snippets sind differenzierter zu betrachten: Sie können durchaus Belege für Stützverb-Vorkommen darstellen, wurden bei der manuellen Klassifikation aber wegen des fehlenden Kontexts und dadurch bedingten hohen subjektiven Beurteilungsniveaus grundsätzlich nicht gezählt. Das automatische Verfahren kann diese Snippets auf Basis des gelernten Classifier-Modells jedoch teils mit hoher Konfidenz klassifizieren (s. z.B. Tabelle 10).

[[Datei:Tabellen 8u9 MS1a.jpg|mini|1000px|links|Tabellen 8 und 9]]

[[Datei:Tabellen 10u11 MS1a.jpg|mini|1000px|links|Tabellen 10 und 11]]

[[Datei:Tabellen 12u13 MS1a.jpg|mini|1000px|links|Tabellen 12 und 13]]

 

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Analyse der Gesamttrefferlisten für beliebige Stützverben, durch die mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘ Aussagen über den Anteil der Stützverbverwendungen gemacht werden können. Die in Storrer (2013) noch exemplarisch an vier Verben und relativ kleinen Stichproben durchgeführten Studien zur Frequenzentwicklung und zur Textsortenspezifik der Gefüge können dadurch mit wesentlich geringerem manuellen Zeitaufwand mit weiteren Stützverben auf einer sehr viel breiteren Datengrundlage untersucht werden. Ein weiterer konkreter Einsatzbereich ist die lexikographische Erfassung der Stützverben in Internet-Wörterbüchern. Im Rahmen des Dissertationsprojekts von Nadja Radtke wird ein Wiki-Wörterbuch für DaF-Lerner aufgebaut werden, in dem die Verfahren genutzt werden, um die beschriebenen Verben nach ihren Vorkommensfrequenzen zu ordnen und den Nutzern Hinweise auf die Textsortenspezifik der verschiedenen Verben und ihrer Gefüge zu geben.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Klassifikationsverfahren auf Basis von Support-Vektor-Maschinen ‒ auf Treffer-Snippets aus Korpus-Suchen können die Experimente ersten Aufschluss über die folgenden Teilfragestellungen geben:

* Wie viele Daten müssen sinnvollerweise manuell annotiert werden?
* Welche Zusatzinformationen sollten verwendet werden (PoS-Tags, Distributionsregeln etc.)?
* Sollte auf der kompletten Datenmenge oder auf Teilmengen (z.B. für unterschiedliche Textsorten) gelernt werden?
* Sind die an Daten zu ausgewählten Stützverben gelernten Verfahren auf andere Stützverben übertragbar? Welche weiteren Anpassungen/manuell annotierten Daten sind ggf. notwendig?

Aufbauend auf den in diesem Report dargestellten Erkenntnissen werden einzelne Fragestellungen in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Textsorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können.

Ergänzend wurde vom Tübinger Projektpartner ein Verfahren zur automatischen Erkennung von Präfixverben entwickelt, das als Filter vor das eigentliche Klassifikationsverfahren geschaltet werden kann, um einen sehr häufig vorkommenden Typ von falsch positiven Treffer-Snippets mit sehr guter Genauigkeit zu erkennen und vorab aus der Treffermenge auszufiltern. Es wird geprüft werden, wie sich der Filter auf die Güte der Klassifikationsverfahren auswirkt. Unabhängig von dem Nutzwert für die hier diskutierten Verfahren ist ein Werkzeug zur Erkennung von Präfixverben generell für korpusgestützte Untersuchungen zu deutschen Verben ein wichtiges Desiderat.

== 6. Zitierte Literatur ==

*Geyken, Alexander (2007): The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies. London u.a.: Continuum, 23‒41.
*Heid, Ulrich (2004): Spécifités morpho-syntaxiques des constructions à verbe support en allemand: Analyse de corpus. Linguisticae Investigationes 27(2), 309‒325.
*Heid, Ulrich/Fritzinger, Fabienne/Hauptmann, Susanne/Weidenkaff, Julia/Weller, Marion (2008): Providing corpus data for a dictionary for German juridical phraseology. In: Storrer, Angelika et al. (Hg.): Text Resources and Lexical Knowledge. Berlin u.a.: Mouton de Gruyter, 131‒144.
*Hinrichs, Erhard/Kübler, Sandra/Naumann, Karin/Heike Telljohann/Trushkina, Julia (2004): Recent Developments of Linguistic Annotations of the TüBa-D/Z Treebank. In: Proceedings of the Third Workshop on Treebanks and Linguistic Theories, Tübingen.
*Joachims, Thorsten (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning, Berlin, Heidelberg: Springer.
*Kamber, Alain (2008): Funktionsverbgefüge – empirisch. Eine korpusbasierte Untersuchung zu den nominalen Prädikaten des Deutschen. Tübingen: Max Niemeyer.
*Kupietz, Marc/Belica, Cyril/Keibel, Holger/Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (Hg.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848‒1854. http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In: Proceedings of the 41st Annual Meeting on Association for Computational Linguistics (ACL), Stroudsburg, PA, USA, 423–430.
*Klein, Wolfgang/Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich et al. (Hg.): Lexikographica. Berlin u.a.: de Gruyter, 79‒93.
*Kupietz, Marc & Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Minegishi, Makoto & Kawaguchi, Yuji (Hg.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53‒59. http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf
*Langer, Stefan (2005): A Formal Specification of Support Verb Constructions. In: Langer, Stefan & Schnorbusch, Daniel (Hg.): Semantik im Lexikon. Tübingen: Narr, 179‒202.
*Manning, Christopher D./Raghavan, Prabhakar/Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press.
*Mierswa, Ingo/Wurst, Michael/Klinkenberg, Ralf/Scholz, Martin/Euler, Timm (2006): YALE: Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Philadelphia, USA.
*Morton, Thomas/Kottmann, Joern/Baldridge, Jason/Bierner, Gann (2005): Opennlp: A java-based nlp toolkit. http://opennlp.sourceforge.net, 2005.
*Nello Cristianini & John Shawe-Taylor (2004): Kernel Methods for Pattern Analysis. Cambridge: Cambridge University Press.
*Platt, John (1999): Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Smola, Alexander et al. (Hg.): Advances in Large Margin Classifiers. Cambridge: MIT Press.
*Pottelberge, Jeroen van (2001): Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: Winter.
*Rüping, Stefan (2006): Robust Probabilistic Calibration. In: Proceedings of the European Conference on Machine Learning (ECML), Berlin, Heidelberg: Springer, 743‒750.
*Schiller, Anne/Teufel, Simone/Stöckert, Christine/Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
*Sprachbericht 2013: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter.
*Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie. In: Prost, Kristel & Winkler, Edeltraud (Hg.): Von der Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. Tübingen: Narr, 147‒178.
*Storrer, Angelika (2007): Corpus-based Investigations on German Support Verb Constructions. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press.
*Storrer, Angelika (2013): Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge. In: Deutsche Akademie für Sprache und Dichtung & Union der deutschen Akademien der Wissenschaften (Hg.): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. Berlin/New York: de Gruyter. 171‒209.
*Telljohann, Heike/Hinrichs, Erhard/Kübler, Sandra/Zinsmeister, Heike/Beck, Kathrin (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Technischer Bericht, Seminar für Sprachwissenschaft, Universität Tübingen.
*Zesch, Torsten/Gurevych, Iryna/Mühlhäuser, Max (2007): Analysing and accessing Wikipedia as a lexical und semantic resource. In: Georg Rehm et al.: Data structures for Linguistic Resources and Applications. Tübingen, 197‒205.

== Anmerkungen ==

# In der deutschsprachigen Literatur findet man auch die Bezeichnungen ‚Funktionsverbgefüge‘, ‚Nominalisierungsverbgefüge‘ , ‚Streckverbgefüge‘ oder ‚verbonominale Konstruktionen‘; einen Überblick über Merkmale und Terminologie geben u.a. van Pottelberge (2001), Langer (2005), Heid (2004), Storrer (2006/2007).
# In der englischen Literatur findet man deshalb auch den Ausdruck ‚light verb‘ statt ‚support verb‘.
# Radtke, Nadja (in Vorbereitung): Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen. Dissertation, TU Dortmund.
# Part-of-Speech-Tags des Stuttgart-Tübingen-Tagsets STTS, vgl. Schiller et al. (1999).
# Bei B3 ist zu beachten, dass diese Kategorie von automatischen Parsern u.U. unzuverlässig annotiert wird. Überhaupt sind ja auch die o. angegebenen Merkmale OA und MO falsch, denn bei den SVG-Komponenten handelt es sich um Prädikatsbestandteile. Das korrekte Edge-Label CVC (‚collocational verb construction‘) wird jedoch nach unseren Erfahrungen bisher allenfalls von Dependenz-Parsern und ebenfalls nicht zuverlässig vergeben.
# Stützverben werden bislang von den automatischen linguistischen Verarbeitungswerkzeugen als ‚Vollverben‘ analysiert (VVFIN nach Stuttgart-Tübingen-Tagset STTS, vgl. Schiller et al. 1999). Das STTS enthält keine eigenen Tags für Stützverben.
# Das Verb ''finden'' wird in den untersuchten Daten aus dem Textsortenbereich Belletristik des DWDS-KK sehr selten als Stützverb gebraucht. Sehr häufig sind hingegen Verwendungen wie ''etw. schön/schlecht finden''. Für diesen Datensatz konnte der F1-Score nicht ermittelt werden, weil keines der Snippets als SVG-Beleg klassifiziert wurde (Recall 0%).

[[Kategorie:Fallstudien]]

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T09:59:15Z

Weber: /* 9 Literatur */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffen-burg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003). Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pag-es 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:58:07Z

Weber: /* Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto & Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:55:45Z

Weber: /* Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Heinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto and Crisafulli, Giuseppe (2010): Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:53:13Z

Weber: /* Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*Blei, David M., Ng, Andrew Y. & Jordan, Michael I. (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Brody, Samuel & Lapata, Mirella (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. & Mercer, Robert L. (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Engelberg, Stefan & Lemnitzer, Lothar (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Geyken, Alexander (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*Griffiths, T. L. & Steyvers, M. (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Klein, Dan & Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang & Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Manning, Christopher D., Raghavan, Prabhakar & Schütze, Hinrich (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Navigli, Roberto & Vannella, Daniele (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Navigli, Roberto (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal & Griffiths, Thomas (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:46:08Z

Weber: /* 6. Zitierte Literatur */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:45:58Z

Weber: /* 5. Fazit und Anschlussarbeiten */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:45:49Z

Weber: /* 4. Evaluation */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== Evaluation ==
=== Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:45:33Z

Weber: /* 3.2 Technische Beschreibung der Experimente */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== Technische Beschreibung der Experimente ===
==== Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== 4. Evaluation ==
=== 4.1 Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== 4.2 Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:45:17Z

Weber: /* 3. Beschreibung der Data-Mining-Experimente */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== Beschreibung der Data-Mining-Experimente ==
=== Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== 3.2 Technische Beschreibung der Experimente ===
==== 3.2.1 Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== 3.2.2 Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== 4. Evaluation ==
=== 4.1 Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== 4.2 Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:44:55Z

Weber: /* 2.2 Datenaufbereitung */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== 3. Beschreibung der Data-Mining-Experimente ==
=== 3.1 Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== 3.2 Technische Beschreibung der Experimente ===
==== 3.2.1 Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== 3.2.2 Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== 4. Evaluation ==
=== 4.1 Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== 4.2 Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:44:41Z

Weber: /* 2. Datengrundlage und linguistische Vorarbeiten */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== Datengrundlage und linguistische Vorarbeiten ==
=== Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== 2.2 Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== 3. Beschreibung der Data-Mining-Experimente ==
=== 3.1 Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== 3.2 Technische Beschreibung der Experimente ===
==== 3.2.1 Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== 3.2.2 Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== 4. Evaluation ==
=== 4.1 Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== 4.2 Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Disambiguierung von Suchtreffern: Leiter und zeitnah

2016-03-04T09:44:25Z

Weber: /* 1. Problemstellung und Projektkontext */

[[Kategorie:Fallstudien]]

== Problemstellung und Projektkontext ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

== 2. Datengrundlage und linguistische Vorarbeiten ==
=== 2.1 Datenerhebung ===

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente ''zeitnah'' wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

{| class="wikitable"
|-
! Wort !! Kernkorpus des 20. Jh. (DWDS) !! ZEIT-Korpus (DWDS) !! Gesamt
|-
| ''Leiter'' || 7.032 || 0 || 7.032
|-
| ''zeitnah'' || 37 || 251 || 288
|-
|}
Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

=== 2.2 Datenaufbereitung ===
Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&''Leiter''&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für ''Leiter'' eine Zufallsstichprobe von 2.000 Treffer-Snippets, für ''zeitnah'' der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von ''Leiter'' und ''zeitnah'' jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

[[Datei:Abb 1 MS1b.jpg|mini|1000px|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten]]

[[Datei:Tabellen 2u3 MS1b.jpg|mini|1000px|links|Tabellen 2 und 3]]

 

== 3. Beschreibung der Data-Mining-Experimente ==
=== 3.1 Vorüberlegungen und Aufbau der Experimente ===

Wie unter 1. bereits erläutert, ist es bislang mithilfe der einschlägigen großen Korpora und ihrer Abfragesysteme nicht möglich, separate Trefferlisten für verschiedene Bedeutungen eines gesuchten Wortes zu erzeugen bzw. gezielt nach bestimmten Bedeutungen eines Wortes zu suchen. Beim manuellen Sichten der Suchtreffer lassen sich verschiedene Bedeutungen eines gesuchten Wortes aber meist leicht an den Kontexten erkennen, in denen sie verwendet werden. Verwendungen eines Wortes in einer bestimmten Bedeutung korrespondieren offenbar mit überzufällig häufigen Vorkommen bestimmter anderer Wörter bzw. sprachlicher Strukturen im Umfeld dieser Wörter. Data-Mining-Verfahren können diese im sprachlichen Kontext eines Suchtreffers gegebenen latenten Informationen für die automatische Disambiguierung nutzbar machen. Dazu werden um alle Vorkommen eines betreffenden Wortes Kontextfenster in einer bestimmten Größe gelegt und mithilfe von Wort- und Kookkurrenzstatistiken Verteilungen von Kontextwörtern ermittelt, die als Repräsentationen von Bedeutungen aufgefasst werden können. Für jedes einzelne Kontextfenster lässt sich daraufhin die Wahrscheinlichkeit berechnen, mit der ein Vorkommen des betreffenden Wortes einer bestimmten Bedeutung zugeordnet werden kann. Ein großer Vorteil solcher induktiv von den Kontexten betreffender Wörter ausgehender Verfahren ist die Tatsache, dass sich auf diese Weise auch unerwartete oder bislang lexikographisch nicht erfasste Bedeutungen identifizieren lassen.

Die Induktion von Wortbedeutungen ist in der Forschung zu Data-Mining-Verfahren bereits gut erforscht. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latent-Dirichlet-Allocation (LDA, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. Sie erweiterten zudem das Verfahren um die Möglichkeit, neben den reinen Wortvorkommen verschiedene weitere Kontextmerkmale zu berücksichtigen (z.B. Part-of-Speech-Tags, Syntax, etc.). LDA wurde ursprünglich zum thematischen Clustern von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Clustering der Trefferlisten von Web-Suchmaschinen.

Der in diesem Report vorgestellte Ansatz unterscheidet sich von diesen Vorarbeiten v.a. dadurch, dass LDA auf Trefferlisten aus Korpussuchen angewendet wird. Während sich die Ergebnisse einer Abfrage in einer Web-Suchmaschine meist auf (Web-)Texte beziehen, die mit dem Suchwort in einem engen thematischen Zusammenhang stehen, ermitteln Korpusabfragesysteme Vorkommen des gesuchten Wortes im ganzen Korpus, unabhängig von der thematischen Relevanz der Fundstellen. Dadurch erscheinen die gesuchten Wörter öfter in weniger typischen, semantisch tendenziell weniger eindeutigen Kontexten. Im Textsortenbereich Belletristik und in Zeitungstexten finden sich nicht selten metaphorische Verwendungen. Möglichkeiten und Grenzen der Anwendung von Clusteringverfahren wie LDA zur automatischen Disambiguierung von Suchtreffern aus Korpora sind noch kaum erforscht. Die Computerlinguistik stellt Expertise in Bezug auf die linguistische Aufbereitung der Korpusdaten durch Wortarten- und Syntaxannotationen bereit. Metadaten ermöglichen zudem die Zuordnung von Belegen zu Textsorten und Zeiträumen (z.B. im DWDS-Kernkorpus). Welche dieser Merkmale als sogenannte ‚Features‘ die Ergebnisse von Clusteringverfahren verbessern und wie Treffer-Snippets und Merkmale idealerweise für die Verfahren zu repräsentieren sind, sind interessante und größtenteils noch offene Fragen.

Die folgenden Abschnitte erläutern die Experimente, die zur Lösung der in Abschnitt 1 dargestellten Problemstellung durchgeführt wurden. Ein LDA-Clusteringverfahren wurde in fünf unterschiedlichen Treatments auf die in Abschnitt 2 dargestellten ungesichteten Daten angewendet und anschließend anhand der manuell disambiguierten Daten evaluiert. Die Treatments unterscheiden sich hinsichtlich der Größe der berücksichtigten Kontextfenster und der Features, die für das Clustering genutzt wurden:

# Bags-of-Words-Ansatz mit einem Kontext von jeweils 10 Wörtern vor und nach dem betreffenden Wort: '''w10''',
# Bags-of-Words-Ansatz mit einem Kontext von jeweils 40 Wörtern vor und nach dem betreffenden Wort: '''w40''',
# Bags-of-Words-Ansatz mit einem Kontext von insgesamt 80 Wörtern vor und nach dem betreffenden Wort: '''w80''',
# Bags-of-Words-Ansatz unter Berücksichtigung der kompletten Treffer-Snippets (drei Sätze, das betreffende Wort im zweiten Satz): '''all''',
# Bags-of-Words-Ansatz, bei dem nur diejenigen Kontextwörter berücksichtigt werden, die syntaktisch unmittelbar vom betreffenden Wort abhängig sind: '''syntax'''.

Als Maß für die Zuverlässigkeit der Verfahren dient das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden. Der auf diese Weise ermittelte F1-Wert stellt ein Standardmaß für die Beurteilung automatischer Disambiguierungsverfahren dar (vgl. Navigli & Vannella, 2013).

=== 3.2 Technische Beschreibung der Experimente ===
==== 3.2.1 Vorverarbeitung ====

Die Treffer-Snippets liegen als Sequenzen von Wörtern vor, die zunächst vorverarbeitet werden müssen, um als Eingabe für das Clusteringverfahren dienen zu können. Wir repräsentieren die Snippets als Bags-of-Words, wobei jedes Treffer-Snippet als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer Suchergebnisliste dargestellt wird (ein sogenannter ‚Wortvektor‘). In einer Trefferliste mit ''N'' Wörtern ist der Vektor ''N''-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Treffer-Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der Trefferliste darstellen. Formal ist ein Wortvektor ''v'' für einen endlichen Text definiert als ein ''N''-dimensionaler Vektor, d.h. alle möglichen Texte enthalten ''N'' unterschiedliche Wörter. Für ''v'' gilt, dass die ''i''-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort ''i'' im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index ''i'' identifizieren. Damit definieren wir eine Abbildung ''Phi'', die die Treffer-Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(''d'') = (''f''(''w''1,''d''), ''f''(''w''2,''d''), …, ''f''(''wN'',''d'')), wobei ''f''(''wi'',''d'') die Anzahl oder (normalisierte) Frequenz von Wort ''i'' in Text ''d'' (für ‚document‘) angibt.

Weil untersucht werden soll, inwiefern Kontextinformationen von unterschiedlicher Größe und Zusammenstellung das Ergebnis des automatischen Clustering beeinflussen, werden verschiedene Bags-of-Words-Repräsentationen erprobt (s. 3.1), wobei einmal die Menge der berücksichtigten Wortvorkommen im Kontext und einmal ihre syntaktische Abhängigkeit vom zu disambiguierenden Wort entscheidend ist. Für die syntaktische Annotation der Treffer-Snippets wurde der Stanford-Konstituentenparser genutzt (Klein & Manning 2003).

==== 3.2.2 Disambiguierung ====

Für die automatische Disambiguierung nutzen wir das Verfahren der Latent-Dirichlet-Allocation (LDA, s. 3.1), wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: Treffer-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für Bedeutungen aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern ''α'' und ''β'' abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ''ϕ'' ~ ''Dirichlet'' (''β'') die Wahrscheinlichkeitsverteilung eines Snippets und ''p'' (''z1''| ''ϕ''(''j'')) ~ ''Multi''(''ϕ''(''j'')) die Wahrschein-lichkeit des Topics ''z1'' für ein gegebenes Snippet ''j''.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic ''z1'' in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Bedeutung des gesuchten Wortes.

== 4. Evaluation ==
=== 4.1 Quantitative Evaluation ===

Zur Evaluation des in Abschnitt 3 beschriebenen Verfahrens werden die durch das automatische Verfahren gebildeten Cluster mit den von zwei Hilfskräften manuell übereinstimmend disambiguierten Datensätzen abgeglichen (s. 2). Überprüft wird jeweils Präzision und Ausbeute der automatischen Disambiguierung im Vergleich zu den manuell disambiguierten Daten. Als Gütekriterium für das Clusteringverfahren dient der F1-Score, das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall), wobei Genauigkeit und Ausbeute gleich gewichtet werden; formal: F1 = 2*(Präzision*Ausbeute)/(Präzision+Ausbeute). Die Tabellen 4 und 5 zeigen die für Leiter und zeitnah in den einzelnen Treatments (s. 3.1) ermittelten Werte:

''Leiter''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.727 || 0.749 || 0.741 || 0.742 || 0.690
|-
|}
Tabelle 4: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''Leiter''

''zeitnah''
{| class="wikitable"
|-
! Kontext (Wörter) !! w10 !! w40 !! w80 !! all !! syntax
|-
| F1 || 0.777 || 0.692 || 0.763 || 0.749 || 0.458
|-
|}
Tabelle 5: F1-Scores für die Güte der automatischen Disambiguierung der Treffer mit ''zeitnah''

Die Ergebnisse zeigen, dass die automatische Disambiguierung von Treffer-Snippets aus Korpusrecherchen bereits mit einfachen Bags-of-Words-Repräsentationen der Snippets mit einer Güte (F1) von zwischen 70% und 78% möglich ist. Generell scheint die Berücksichtigung eines möglichst großen Kontextfensters (‚all‘) robust eine mittlere Güte zu erzielen, während optimale Kontextfenster wortspezifisch variieren. Überraschend ist die schlechte Güte des Verfahrens, bei dem die Auswahl des zu berücksichtigenden Wortkontexts auf unmittelbaren syntaktischen Abhängigkeiten beruht (‚syntax‘). Offensichtlich bergen auch solche Wörter für die Disambiguierung essenzielle latente Informationen, die syntaktisch von dem zu disambiguierenden Wort nicht abhängen bzw. obligatorisch sind. Inwiefern eine parallele Repräsentation von Wortarten- oder syntaktischen Merkmalen eine Verbesserung der Güte bewirken kann, ist in weiteren Experimenten zu untersuchen.

=== 4.2 Qualitative Evaluation ===

Die durch das automatische Verfahren ermittelten, ein Topic am wahrscheinlichsten induzierenden Wörter (s. 3.2) sind aufschlussreich für den Nutzwert der erzeugten Cluster für anknüpfende lexikographische Untersuchungen. Tabelle 6 zeigt die für ''Leiter'' ermittelten Topics und diese repräsentierende Kontextwörter:

{| class="wikitable"
|-
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5
|-
| DDR || politisch || Berlin || Musik || hinauf
|-
| Abteilung || Partei || Prof. || München || Mann
|-
| Regierung || Korps || Dr. || New York || oben
|-
| Minister || Führer || Hochschule || Dirigent || gehen
|-
| ZK || Arbeit || Institut || Oper || Sprosse
|-
| SED || NSDAP || Lehrer || Komponist || Wand
|-
|}
Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)

Es zeigt sich, dass die ermittelten Bedeutungen nicht den Bedeutungsbestimmungen entsprechen, die sich z.B. in gängigen Wörterbüchern oder anderen lexikalischen Ressourcen finden. Insbesondere für die frequenteste Bedeutung ''Führungsperson/Boss'' (vgl. Tabelle 2) wurde eine sehr feinkörnige Disambiguierung vorgenommen; die Kontextwörter weisen auf Belege für ''Leiter'' i.S.v. ''politischer Leiter'', ''DDR/Drittes Reich'' (Topic 1/2), ''Leiter einer Bildungsinstitution'' (Topic 3) und ''musikalischer Leiter'' (Topic 4) hin. Dies ist als Vorteil zu werten: Korpusnutzer können bei Bedarf eine sehr feinkörnige Bedeutungsunterscheidung erhalten. Eine grobkörnigere Disambiguierung lässt sich je nach Fragestellung leicht durch Zusammenführen einzelner Cluster erreichen.

== 5. Fazit und Anschlussarbeiten ==

Bereits die bislang getesteten Verfahren ermöglichen eine Disambiguierung der Gesamttrefferlisten beliebiger Wörter mit akzeptabler Genauigkeit bzw. zumindest mit bekannter ‚Grauzone‘. Damit wird es künftig möglich sein, auch solche quantitative empirische Untersuchungen zu lexikographisch interessanten hochfrequenten Wörtern durchzuführen, die eine Disambiguierung homonymer oder polysemer Wortformen erfordern. Von den Verfahren können auch statistische Visualisierungs- und Analysewerkzeuge profitieren (z.B. ‚Wortverlauf‘ und ‚Wortprofil‘ des DWDS), die bislang noch überwiegend formbasiert arbeiten.

In Bezug auf die Frage der Anwendbarkeit von Data-Mining-Verfahren ‒ genauer: Clusteringverfahren auf Basis der Latent-Dirichlet-Allocation ‒ auf Treffer-Snippets aus Korpussuchen können die Experimente ersten Aufschluss darüber geben, mit welcher Repräsentation der Korpusdaten die beste Güte des evaluierten Verfahrens zu erreichen ist.
Aufbauend auf den in diesem Report dargestellten Erkenntnissen wird diese Fragestellung in weiteren Experimenten vertieft. In den weiterführenden Arbeiten soll insbesondere erprobt werden, durch welche weiteren Merkmale und ggf. Merkmalskombinationen (z.B. N-Gramme, vollständige oder teilweise syntaktische Annotation der Treffer, Berücksichtigung weiterer manuell annotierter Merkmale wie typische prädikative Nomina/Suffixe etc., Text-sorten-Metadaten) die Verfahren in ihrer Güte noch verbessert werden können. Darüber hinaus sollen auch innovative Möglichkeiten der Visualisierung von Bedeutungsentwicklungen erprobt werden.

== 6. Zitierte Literatur ==

*David M. Blei, Andrew Y. Ng & Michael I. Jordan (2003): Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022, March.
*Samuel Brody & Mirella Lapata (2009): Bayesian word sense induction. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 103–111, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra & Robert L. Mercer (1991): Word-sense disambiguation using statistical methods. In Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, ACL ’91, pages 264–270, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Jacob Cohen (1960): A coefficient of agreement for nominal scales. In Educational and Psychological Measurement. 20, pages 37–46.
*Duden (2011): Deutsches Universalwörterbuch. 7, überarb. u. erw. Aufl., Dudenverlag, Berlin.
*Stefan Engelberg & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. Stauffenburg, Tübingen.
*Alexander Geyken (2007): The DWDS corpus. A reference corpus for the German language of the twentieth century. In Christiane Fellbaum, editor, Idioms and collocations. Corpus-based linguistic and lexicographic studies, pages 23–40. Continuum, London.
*T. L. Griffiths & M. Steyvers (2004): Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April.
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pages 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Wolfgang Klein & Alexander Geyken (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In Ulrich Heid et al., editors, Lexikographica, pages 79‒93, Berlin u.a.: de Gru-yter,.
*Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.
*Roberto Navigli and Giuseppe Crisafulli (2010). Inducing word senses to improve web search result clustering. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 116–126, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Roberto Navigli & Daniele Vannella (2013): Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 193–201, Atlanta, Georgia, USA, June. Association for Computational Linguistics.
*Roberto Navigli (2009): Word sense disambiguation: A survey. ACM Comput. Surv., 41(2):10:1–10:69, February.
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi & Thomas Griffiths (2004): Probabilistic author-topic models for information discovery. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 306–315, New York, NY, USA. ACM.

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T09:42:30Z

Weber: /* 9 Literatur */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffen-burg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum, 23-40.
*Griffiths, Thomas L. and Steyvers, Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pag-es 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten

2016-03-04T09:40:54Z

Weber: /* 9 Literatur */

[[Kategorie:Fallstudien]]

== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie==

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.

== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==

=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]

 

Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]

 

Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]

 

=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]

 

== 4 Auswahl der Wörter und Korpora ==

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint im Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

== 5 Experimente und Evaluation ==

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 1 zeigt eine Übersicht über die Evaluations-Treatments:

{| class="wikitable"
|-
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext
|-
! 20 !! 30 !! 40
|-
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 2 || toll || Adjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
| 8 || cloud || Substantiv || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X
|-
|}
Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung

Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 2 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):

{| class="wikitable"
|-
! style="height: 3em"| Treatment !! Wort !! IAA
|-
| 1 || Platte || 0,82
|-
| 2 || toll || 0,76
|-
| 3 || anrufen || 0,97
|-
| 4 || Heuschrecke || 0,98
|-
| 5 || zeitnah || 0,91
|-
| 6 || toll || 0,71
|-
| 7 || da || 0,75
|-
| 8 || cloud || 0,92
|-
|}
Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren

Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 3.2) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweisungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).

== 6 Ergebnisse ==

Die folgenden Tabellen 3-10 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857
|-
! 30
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988
|-
! 40
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800
|-
|}

Tabelle 3: Ergebnisse für Treatment 1

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,519 || 0,571 || 0,167
|-
! 30
| 0,714 || 0,615 || 0,632
|-
! 40
| 0,625 || 0,667 || 0,500
|-
|}

Tabelle 4: Ergebnisse für Treatment 2

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,800 || 0,800
|-
! 40
| 0,909 || 0,889
|-
|}

Tabelle 5: Ergebnisse für Treatment 3

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,857 || 0,842
|-
! 30
| 0,800 || 0,933
|-
! 40
| 0,667 || 0,727
|-
|}

Tabelle 6: Ergebnisse für Treatment 4

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,727 || 0,667
|-
! 30
| 0,888 || 0,800
|-
! 40
| 0,895 || 0,818
|-
|}

Tabelle 7: Ergebnisse für Treatment 5

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „toll“ !! irre !! ausgelassen/wild
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,571
|-
! 30
| 0,625 || 0,750
|-
! 40
| 0,556 || 0,636
|-
|}

Tabelle 8: Ergebnisse für Treatment 6

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „da“ !! temporal !! kausal
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,471 || 0,556
|-
! 30
| 0,353 || 0,529
|-
! 40
| 0,400 || 0,611
|-
|}

Tabelle 9: Ergebnisse für Treatment 7

{| class="wikitable" style="text-align:center"
|-
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name
|-
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20
| 0,526 || 0,500 || 0,471
|-
! 30
| 0,783 || 0,631 || 0,615
|-
! 40
| 0,467 || 0,545 || 0,684
|-
|}

Tabelle 10: Ergebnisse für Treatment 8

Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:

=== 6.1 Wortart ===
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabellen 3, 6, 10 ) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.

=== 6.2 Anzahl der Bedeutungen ===
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (s. Tabelle 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.

=== 6.3 Korpus und Sprache ===
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

=== 6.4 Anzahl an Snippets und Größe des Kontexts ===
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.

== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 5-9 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:

=== 7.1 „Platte“ ===

[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.

=== 7.2 „toll“ ===

[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''insane (irre)'' und ''jolly/wild (ausgelassen/wild)'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good (sehr gut)'' mehr und mehr prominent.

=== 7.3 „anrufen“ ===

[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]

 

Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.

=== 7.4 „Heuschrecke“ ===

[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.

=== 7.5 „zeitnah“ ===

[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]

 

Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.

== 8 Fazit ==

Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.

Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.

Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.

== 9 Literatur ==

*Blei, David M., Ng, Andrew Y. and Jordan, Michael I. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.
*Blei, David M. and Lafferty, John D. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.
*Brody, Samuel and Lapata, Mirella (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.
*Brown, Peter F., Della Pietra, Stephen A., Della Pietra, Vincent J. and Mercer, Robert L. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.
*Cohen, Jacob (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.
*Engelberg, Stefan and Lemnitzer, Lothar (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffen-burg.
*McEnery, Tony, Xiao, Richard and Tono, Yukio (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.
*Fritz, Gerd (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.
*Fritz, Gerd (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.
*Geyken, Alexander (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum, 23-40.
*Griffiths, Thomas L. and Steyvers Mark (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.
*Hinrichs, Erhard and Zastrow, Thomas (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.
*Keller, Rudi and Kirschbaum, Ilja (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.
*Klein, Dan and Manning, Christopher D. (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pag-es 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.
*Klein, Wolfgang and Geyken, Alexander (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.
*Lüdeling, Anke and Kytö, Merja (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.
*Mierswa, Ingo et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.
*Navigli, Roberto (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.
*Navigli, Roberto and Crisafulli, Giuseppe (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.
*Navigli, Roberto and Vannella, Daniele (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.
*Quasthoff, Uwe, Richter, Matthias and Biemann, Chris (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.
*Rohrdantz, Christian et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.
*Rayson, Paul and Stevenson, Mark (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.
*Steyvers, Mark, Smyth, Padhraic, Rosen-Zvi, Michal and Griffiths, Thomas (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.
*Storrer, Angelika (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.

Fallstudien

2016-03-04T09:29:20Z

Weber:

Projektbeschreibung

2016-03-04T09:26:17Z

Weber: /* Genutzte Ressourcen */

__INHALTSVERZEICHNIS_ERZWINGEN__

=''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)=
<table width="730" border="0"><tr><td>
war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.

*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. [[Projektbeteiligte]])
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
*'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts:
</td></tr></table>

=Wissenschaftliche Anwendungsfelder ("''use cases''")=
<table width="730" border="0"><tr><td>
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen.

Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können.

Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert:

*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen.
*'''Lexikographie:''' Unterstützung des lexikographischen Arbeitsprozesses, z.B.: Suche nach interessanten, ungewöhnlichen Belegen (Metapher, Metonymie); Frequenzdaten zu disambiguierten lexikalischen Einheiten; Rekonstruktion und Visualisierung von Bedeutungswandel (z.B. ''billig'', ''toll'', ''zeitnah'') und von Prozessen der Ausdifferenzierung von Teilbedeutungen über Zeiträume und Textsortenbereiche hinweg (z.B. ''Ampel'' als Hängelampe, als Lichtzeichenanlage, als politische Koalition etc.).
*'''Diachronische Sprachforschung:''' Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum. Z.B. Entwicklung und Ausdifferenzierung des '''Systems deutscher Stützverbgefüge''' (''zur Anwendung bringen'', ''zur Anwendung kommen'' und ''Anwendung finden''). Studien zu Prozessen des lexikalischen Wandels (Metapher, Metonymie, Grammatikalisierung etc.). Einfluss von Kontaktsprachen und diatopischen Varietäten.

Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft).

Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant.
</td></tr></table>

=Methode=
<table width="730" border="0"><tr><td>
Im Projekt arbeiteten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung:

[[Bild:Kobra-architektur.jpg]]

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt:
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)''';
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)''';
*die''' aufgabenbezogene linguistische Annotation'''.
Die im Projekt entwickelten Verfahren wurden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration wurde der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.
</td></tr></table>

=Genutzte Ressourcen=
<table width="730" border="0"><tr><td>
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern).

'''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' waren strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale:

[[Bild:kobra-ressourcen.jpg]]
</td></tr></table>

=Entstehende Ressourcen=
<table width="730" border="0"><tr><td>
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''.
*'''Institut für deutsche Sprache (IDS) Mannheim:''' Integration in die Infrastruktur zur Pflege und zum Ausbau des '''[http://www1.ids-mannheim.de/kl/projekte/korpora/ Deutschen Referenzkorpus (DeReKo)]''', in '''[http://www.ids-mannheim.de/cosmas2/ COSMAS]''' bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform '''[http://www1.ids-mannheim.de/kl/projekte/korap.html KorAP]''' sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''.

Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]).
</td></tr></table>

Projektbeschreibung

2016-03-04T09:25:38Z

Weber: /* Methode */

__INHALTSVERZEICHNIS_ERZWINGEN__

=''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)=
<table width="730" border="0"><tr><td>
war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.

*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. [[Projektbeteiligte]])
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
*'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts:
</td></tr></table>

=Wissenschaftliche Anwendungsfelder ("''use cases''")=
<table width="730" border="0"><tr><td>
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen.

Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können.

Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert:

*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen.
*'''Lexikographie:''' Unterstützung des lexikographischen Arbeitsprozesses, z.B.: Suche nach interessanten, ungewöhnlichen Belegen (Metapher, Metonymie); Frequenzdaten zu disambiguierten lexikalischen Einheiten; Rekonstruktion und Visualisierung von Bedeutungswandel (z.B. ''billig'', ''toll'', ''zeitnah'') und von Prozessen der Ausdifferenzierung von Teilbedeutungen über Zeiträume und Textsortenbereiche hinweg (z.B. ''Ampel'' als Hängelampe, als Lichtzeichenanlage, als politische Koalition etc.).
*'''Diachronische Sprachforschung:''' Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum. Z.B. Entwicklung und Ausdifferenzierung des '''Systems deutscher Stützverbgefüge''' (''zur Anwendung bringen'', ''zur Anwendung kommen'' und ''Anwendung finden''). Studien zu Prozessen des lexikalischen Wandels (Metapher, Metonymie, Grammatikalisierung etc.). Einfluss von Kontaktsprachen und diatopischen Varietäten.

Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft).

Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant.
</td></tr></table>

=Methode=
<table width="730" border="0"><tr><td>
Im Projekt arbeiteten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung:

[[Bild:Kobra-architektur.jpg]]

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt:
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)''';
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)''';
*die''' aufgabenbezogene linguistische Annotation'''.
Die im Projekt entwickelten Verfahren wurden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration wurde der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.
</td></tr></table>

=Genutzte Ressourcen=
<table width="730" border="0"><tr><td>
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern).

'''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' sind strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale:

[[Bild:kobra-ressourcen.jpg]]
</td></tr></table>

=Entstehende Ressourcen=
<table width="730" border="0"><tr><td>
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''.
*'''Institut für deutsche Sprache (IDS) Mannheim:''' Integration in die Infrastruktur zur Pflege und zum Ausbau des '''[http://www1.ids-mannheim.de/kl/projekte/korpora/ Deutschen Referenzkorpus (DeReKo)]''', in '''[http://www.ids-mannheim.de/cosmas2/ COSMAS]''' bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform '''[http://www1.ids-mannheim.de/kl/projekte/korap.html KorAP]''' sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''.

Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]).
</td></tr></table>

Projektbeschreibung

2016-03-04T09:25:03Z

Weber: /* Methode */

__INHALTSVERZEICHNIS_ERZWINGEN__

=''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)=
<table width="730" border="0"><tr><td>
war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.

*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. [[Projektbeteiligte]])
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
*'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts:
</td></tr></table>

=Wissenschaftliche Anwendungsfelder ("''use cases''")=
<table width="730" border="0"><tr><td>
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen.

Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können.

Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert:

*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen.
*'''Lexikographie:''' Unterstützung des lexikographischen Arbeitsprozesses, z.B.: Suche nach interessanten, ungewöhnlichen Belegen (Metapher, Metonymie); Frequenzdaten zu disambiguierten lexikalischen Einheiten; Rekonstruktion und Visualisierung von Bedeutungswandel (z.B. ''billig'', ''toll'', ''zeitnah'') und von Prozessen der Ausdifferenzierung von Teilbedeutungen über Zeiträume und Textsortenbereiche hinweg (z.B. ''Ampel'' als Hängelampe, als Lichtzeichenanlage, als politische Koalition etc.).
*'''Diachronische Sprachforschung:''' Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum. Z.B. Entwicklung und Ausdifferenzierung des '''Systems deutscher Stützverbgefüge''' (''zur Anwendung bringen'', ''zur Anwendung kommen'' und ''Anwendung finden''). Studien zu Prozessen des lexikalischen Wandels (Metapher, Metonymie, Grammatikalisierung etc.). Einfluss von Kontaktsprachen und diatopischen Varietäten.

Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft).

Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant.
</td></tr></table>

=Methode=
<table width="730" border="0"><tr><td>
Im Projekt arbeiteten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung:

[[Bild:Kobra-architektur.jpg]]

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt:
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)''';
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)''';
*die''' aufgabenbezogene linguistische Annotation'''.
Die im Projekt entwickelten Verfahren werden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration ist der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.
</td></tr></table>

=Genutzte Ressourcen=
<table width="730" border="0"><tr><td>
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern).

'''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' sind strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale:

[[Bild:kobra-ressourcen.jpg]]
</td></tr></table>

=Entstehende Ressourcen=
<table width="730" border="0"><tr><td>
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''.
*'''Institut für deutsche Sprache (IDS) Mannheim:''' Integration in die Infrastruktur zur Pflege und zum Ausbau des '''[http://www1.ids-mannheim.de/kl/projekte/korpora/ Deutschen Referenzkorpus (DeReKo)]''', in '''[http://www.ids-mannheim.de/cosmas2/ COSMAS]''' bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform '''[http://www1.ids-mannheim.de/kl/projekte/korap.html KorAP]''' sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''.

Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]).
</td></tr></table>

Projektbeschreibung

2016-03-04T09:24:13Z

Weber: /* Wissenschaftliche Anwendungsfelder ("use cases") */

__INHALTSVERZEICHNIS_ERZWINGEN__

=''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)=
<table width="730" border="0"><tr><td>
war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.

*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. [[Projektbeteiligte]])
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
*'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts:
</td></tr></table>

=Wissenschaftliche Anwendungsfelder ("''use cases''")=
<table width="730" border="0"><tr><td>
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen.

Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können.

Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert:

*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen.
*'''Lexikographie:''' Unterstützung des lexikographischen Arbeitsprozesses, z.B.: Suche nach interessanten, ungewöhnlichen Belegen (Metapher, Metonymie); Frequenzdaten zu disambiguierten lexikalischen Einheiten; Rekonstruktion und Visualisierung von Bedeutungswandel (z.B. ''billig'', ''toll'', ''zeitnah'') und von Prozessen der Ausdifferenzierung von Teilbedeutungen über Zeiträume und Textsortenbereiche hinweg (z.B. ''Ampel'' als Hängelampe, als Lichtzeichenanlage, als politische Koalition etc.).
*'''Diachronische Sprachforschung:''' Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum. Z.B. Entwicklung und Ausdifferenzierung des '''Systems deutscher Stützverbgefüge''' (''zur Anwendung bringen'', ''zur Anwendung kommen'' und ''Anwendung finden''). Studien zu Prozessen des lexikalischen Wandels (Metapher, Metonymie, Grammatikalisierung etc.). Einfluss von Kontaktsprachen und diatopischen Varietäten.

Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft).

Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant.
</td></tr></table>

=Methode=
<table width="730" border="0"><tr><td>
Im Projekt arbeiten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung:

[[Bild:Kobra-architektur.jpg]]

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt:
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)''';
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)''';
*die''' aufgabenbezogene linguistische Annotation'''.
Die im Projekt entwickelten Verfahren werden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration ist der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.
</td></tr></table>

=Genutzte Ressourcen=
<table width="730" border="0"><tr><td>
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern).

'''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' sind strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale:

[[Bild:kobra-ressourcen.jpg]]
</td></tr></table>

=Entstehende Ressourcen=
<table width="730" border="0"><tr><td>
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''.
*'''Institut für deutsche Sprache (IDS) Mannheim:''' Integration in die Infrastruktur zur Pflege und zum Ausbau des '''[http://www1.ids-mannheim.de/kl/projekte/korpora/ Deutschen Referenzkorpus (DeReKo)]''', in '''[http://www.ids-mannheim.de/cosmas2/ COSMAS]''' bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform '''[http://www1.ids-mannheim.de/kl/projekte/korap.html KorAP]''' sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''.

Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]).
</td></tr></table>

Projektbeschreibung

2016-03-03T16:05:15Z

Weber: /* KobRA (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining) */

__INHALTSVERZEICHNIS_ERZWINGEN__

=''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)=
<table width="730" border="0"><tr><td>
war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.

*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. [[Projektbeteiligte]])
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
*'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts:
</td></tr></table>

=Wissenschaftliche Anwendungsfelder ("''use cases''")=
<table width="730" border="0"><tr><td>
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen.

Das Projekt setzt auf diesen Infrastrukturen auf und nutzt innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, sollen auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt werden. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können.

Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert:

*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen.
*'''Lexikographie:''' Unterstützung des lexikographischen Arbeitsprozesses, z.B.: Suche nach interessanten, ungewöhnlichen Belegen (Metapher, Metonymie); Frequenzdaten zu disambiguierten lexikalischen Einheiten; Rekonstruktion und Visualisierung von Bedeutungswandel (z.B. ''billig'', ''toll'', ''zeitnah'') und von Prozessen der Ausdifferenzierung von Teilbedeutungen über Zeiträume und Textsortenbereiche hinweg (z.B. ''Ampel'' als Hängelampe, als Lichtzeichenanlage, als politische Koalition etc.).
*'''Diachronische Sprachforschung:''' Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum. Z.B. Entwicklung und Ausdifferenzierung des '''Systems deutscher Stützverbgefüge''' (''zur Anwendung bringen'', ''zur Anwendung kommen'' und ''Anwendung finden''). Studien zu Prozessen des lexikalischen Wandels (Metapher, Metonymie, Grammatikalisierung etc.). Einfluss von Kontaktsprachen und diatopischen Varietäten.

Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft).

Im Rahmen des Projekts wird erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kommen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise lassen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant.
</td></tr></table>

=Methode=
<table width="730" border="0"><tr><td>
Im Projekt arbeiten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung:

[[Bild:Kobra-architektur.jpg]]

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt:
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)''';
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)''';
*die''' aufgabenbezogene linguistische Annotation'''.
Die im Projekt entwickelten Verfahren werden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration ist der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.
</td></tr></table>

=Genutzte Ressourcen=
<table width="730" border="0"><tr><td>
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern).

'''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' sind strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale:

[[Bild:kobra-ressourcen.jpg]]
</td></tr></table>

=Entstehende Ressourcen=
<table width="730" border="0"><tr><td>
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''.
*'''Institut für deutsche Sprache (IDS) Mannheim:''' Integration in die Infrastruktur zur Pflege und zum Ausbau des '''[http://www1.ids-mannheim.de/kl/projekte/korpora/ Deutschen Referenzkorpus (DeReKo)]''', in '''[http://www.ids-mannheim.de/cosmas2/ COSMAS]''' bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform '''[http://www1.ids-mannheim.de/kl/projekte/korap.html KorAP]''' sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''.

Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]).
</td></tr></table>

Aktivitäten

2016-03-03T15:59:49Z

Weber: /* Annotations-Tool Workshop, 29. Januar 2016, Darmstadt */

Auf dieser Seite finden Sie Meldungen zu Aktivitäten des KobRA-Projekts (absteigend chronologisch sortiert). Für einen schnellen Überblick bieten wir auch eine Auflistung aller projektrelevanten wissenschaftlichen Vorträge an: '''[[Präsentationen]]'''. Für die Workshops und Fallstudien des Projekts gibt es ebenfalls je eigenständige Rubriken: '''[[:Kategorie:Projektworkshops|Projektworkshops]]''', '''[[:Kategorie:Fallstudien|Fallstudien]]'''.

__FORCETOC__
==Annotations-Tool Workshop, 29. Januar 2016, Darmstadt==
Im intern organisierten Workshop '''Interactive Annotation and Corpus Exploration Tools''' am 29. Januar 2016 an der Technischen Universität Darmstadt tauschten sich Wissenschaftlerinnen und Wissenschaftler aus Computerlinguistik, Informatik und Linguistik über Annotations- und Suchwerkzeuge sowie Annotationssysteme aus. Das Projekt KobRA und die darin entwickelten Data-Mining-Verfahren für die korpusbasierte Sprachanalyse wurden ebenfalls vorgestellt und vorgeführt.

==KobRA-Fachtagung, 30. Oktober 2015, BBAW (Berlin)==
Auf der Fachtagung [[Fachtagung 30.10.2015|''Neue Wege in der Nutzung von Korpora - Data-Mining für die textorientierten Geisteswissenschaften'']] wurden die Ergebnisse des KobRA-Projekts vorgestellt und Perspektiven für die Zukunft diskutiert. Das Tagungsprogramm finden Sie [[Media: Fachtagung_Data Mining_Programm_Stand 28.10_2.pdf|hier]].

Die einzelnen Präsentationen finden Sie auf dieser [[Fachtagung 30.10.2015|Seite'']] zum Download.

==''Connect, Animate, Innovate.'' TEI Annual Conference and Members' Meeting 2015, 28.-31. Oktober 2015 (Lyon)==

Im Rahmen der [http://tei2015.huma-num.fr/en/ Jahreskonferenz der Text encoding Initiative] beteiligten sich verschiedene KobRA-Akteure an einem Panel zum Stand der Entwicklung eines TEI-Schemas für die Annotation von Korpora internetbasierter Kommunikation / sozialer Medien:
* Panel: "[http://tei2015.huma-num.fr/en/panelsround-tables/#acc-3 TEI across corpora, languages and genres: Towards a standard for the representation of social media and computer-mediated communication]" (organisert von Michael Beißwenger & Thierry Chanier unter Beteiligung u.a. von Alexander Geyken, Axel Herold, Marc Kupietz, Lothar Lemnitzer, Harald Lüngen, Angelika Storrer und Andreas Witt).

==DCH2015, 28. bis 30. Oktober 2015 (Berlin)==

Die interdisziplinäre Konferenz [http://dch2015.net/abstracts_submission.shtml ''Digital Cultural Heritage (DCH)''] am 28. Oktober 2015 widmete sich der Auseinandersetzung mit kulturellem Erbe im Zeitalter der Digitalisierung. WissenschaftlerInnen diskutieren über digitale Analyse-, Auswertungs- und Darstellungsmöglichkeiten verschiedener Disziplinen.
*Beitrag: Vortrag ''A Data Mining Environment for Linguistic Research Based on CLARIN-D Language Resources'' (Katharina Morik, Thomas Bartz, Christian Pölitz & Angelika Storrer).

==International Research Days: Social Media and CMC Corpora for the eHumanities (''ird-cmc''), 23./24. Oktober 2015 (Rennes)==

Im Rahmen der [http://ird-cmc-rennes.sciencesconf.org/ internationalen ''ird-cmc''-Konferenz in Rennes], die von Michael Beißwenger mitorganisiert wurde, gab es verschiedene Beiträge mit KobRA-Bezug:
* Keynote-Vortrag: "Wikipedia as a corpus resource for linguistic research" (Angelika Storrer)
* Panel: "Towards an encoding standard for social media and CMC: Experiences from German and French corpus projects using TEI" (organisiert von Michael Beißwenger & Thierry Chanier mit Beiträgen u.a. aus verschiedenen Korpusprojekten im KobRA-Kontext)
* Vortrag: "An extended tag set for annotating parts of speech in CMC corpora" (Michael Beißwenger, Thomas Bartz, Eric Ehrhardt, Angelika Storrer)

==Electronic Lexicography in the 21st Century: Linking lexical data in the digital age (elex), 11.-13. August 2015 (Herstmonceaux, UK)==

Die (seit 2009) zweijährlich stattfindende Konferenz ''[http://elex.link/elex2015/ elex]'' bringt Praktiker aus der Lexikographie und Entwickler digitaler Werkzeuge für die Bearbeitung und Präsentation lexikographischer Daten zusammen. Das KobRA-Projekt war mit den unten stehenden Beiträgen auf dieser Fachtagung vertreten.

Beiträge:
* Vortrag: "Using a Maximum Entropy Classifier to link “good” corpus examples to dictionary senses." (Alexander Geyken, Christian Pölitz, Thomas Bartz)

* Vortrag: "Combining a rule-based approach and machine learning in a good-example extraction task for the purpose of lexicographic work on contemporary standard German." (Lothar Lemnitzer, Christian Pölitz, Jörg Didakowski, Alexander Geyken)

==CLARIN-D Fach-AG Workshop, 30. Juni/1. Juli 2015 (Leipzig)==

Beim dritten Workshop der CLARIN-D Fach-AGs [http://clarin2015.informatik.uni-leipzig.de/ "Fächerübergreifende Perspektiven durch digitale Forschungsinfrastrukturen"] standen digitale Forschungsressourcen, deren Pflege und Anwendungs- und Distributionspotential im Mittelpunkt. Der Workshop bot die Möglichkeit, das KobRA-Projekt im Rahmen eines interdisziplinären Austausches vorzustellen und sowohl vielfältige Anwendungsmöglichkeiten der entwickelten Analyseverfahren aufzuzeigen als auch Forschungsdesiderate zu formulieren.

*Beitrag: "Korpusbasierte Sprachanalyse mit CLARIN-D-Ressourcen: Anwendungsszenarien und Erfahrungen aus dem Projekt KobRA". Vortrag im Rahmen des [http://clarin2015.informatik.uni-leipzig.de/ "CLARIN-D Fach-AGs" "CLARIN-D Workshops "Fächerübergreifende Perspektiven durch digitale Forschungsinfrastrukturen" in Leipzig] (Angelika Storrer)

==QueryVis Workshop (im Rahmen der NODALIDA), 11. Mai 2015 (Vilnius, Litauen)==

Am 11. Mai fand im Rahmen der [http://www2.lingfil.uu.se/nodalida2015/ 20. Nordic Conference of Computational Linguistics (Nodalida 2015)] der [https://pub.cl.uzh.ch/events/queryvis/ QueryVis Workshop on Innovative Corpus Query and Visualization Tools] statt, mit Beteiligung von Marc Kupietz (als Invited Speaker) und Nils Diewald.

Beiträge:

*Eingeladener Vortrag: "Scaling out corpus technology: the open source query and analysis engine KorAP." (Marc Kupietz)

*Vortrag: "KoralQuery - A General Corpus Query Protocol." (Joachim Bingel & Nils Diewald)

==Digital Humanities Summit, 3./4. März 2015 (Berlin)==

Der [https://de.dariah.eu/dhsummit2015 "DARIAH-D Digital Humanities Summit"] beschäftigte sich mit der zukünftigen Entwicklung digitaler Forschungsinfrastrukturen im Bereich der Kultur- und Geisteswissenschaften. Die Entwicklung von neuen, korpusbasierten Analysemethoden und Werkzeugen trägt zur Strärkung interdisziplinärer Zusammenarbeit bei und fördert die Vernetzung von Forschungsinfrastrukturen.

*Beitrag: "Erprobung innovativer Data-Mining-Verfahren für die empirische Arbeit mit strukturierten Sprachressourcen". [https://de.dariah.eu/documents/10180/472725/1_Bartz_DH-Summit_300dpi.pdf/376e6d94-c0e9-4cfc-86b0-39a2269cafae "Posterpräsentation auf dem Digital Humanities Summit in Berlin"] (Thomas Bartz, Christian Pölitz, Angelika Storrer)

==Herrenhäuser Symposium Visuelle Linguistik, 19.-21. November 2014 (Hannover)==

Ziel des [http://www.visual-linguistics.net/symposium/ ''Symposiums Visuelle Linguistik''] im Schloss Herrenhausen (Hannover) war es, den aktuellen Stand zu Theorie und Anwendung von Visualisierungen in der Sprachwissenschaft zu erörtern. Visualisierung hat als Mittel zur Veranschaulichung in der Linguistik eine lange Tradition, mit dem Aufkommen großer Korpora und der damit einhergehenden Etablierung statistischer, korpuslinguistischer Methoden hat das Thema in den letzten Jahren eine neue Relevanz bekommen und stellt heute eine große Entwicklungschance und Herausforderung zugleich dar.

*Beitrag: "Visualisierung von Frequenzverteilungen im Anwendungsbereich Lexikographie." Posterpräsentation im Rahmen des [http://www.visual-linguistics.net/symposium/index.html ''Herrenhäuser Symposiums: Visuelle Linguistik. Theorie und Anwendung von Visualisierungen in der Sprachwissenschaft'' im Schloss Herrenhausen, Hannover] (Thomas Bartz, Angelika Storrer)

==CAC 2014, 23.-25. Oktober 2014 (Soesterberg)==

Die [https://www.clarin.eu/event/2014/clarin-annual-conference-2014-soesterberg-netherlands ''CLARIN-Jahreskonferenz 2014''] in Soesterberg (Niederlande) war eine gute Gelegenheit, bislang noch nicht präsentierte Ergebnisse der Projektarbeiten aus dem [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Lexikographie]] und erstmals auch die im Projekt entwickelte bzw. angepasste [[Projektbeschreibung#Entstehende_Ressourcen|Data-Mining-Umgebung für die korpus-basierte linguistische Recherche und Analyse]] als Ganze vorzustellen. Die Projektarbeiten bauen unmittelbar auf die [https://www.clarin.eu/guest-portal CLARIN-Infrastruktur] auf und erweitern die Möglichkeiten der Recherche und Analyse.

*Beitrag: "Using Data Mining and the CLARIN Infrastructure to Extend Corpus-based Linguistic Research." Vortrag im Rahmen der [https://www.clarin.eu/event/2014/clarin-annual-conference-2014-soesterberg-netherlands ''CLARIN Annual Conference (CAC 2014)'' in Soesterberg] (Thomas Bartz, Christian Pölitz)

==KONVENS 2014, 7. Oktober 2014 (Hildesheim)==

Im Rahmen des Workshops [https://sites.google.com/site/nlp4cmc/ NLP4CMC: Natural Language Processing for Computer-Mediated Communication / Social Media] bei der [http://www.uni-hildesheim.de/konvens2014/ Konferenz zur Verarbeitung natürlicher Sprachen (KONVENS 2014)] an der Universität Hildesheim haben wir mit unseren Kooperationspartnern vom IDS Mannheim laufende Arbeiten aus dem Projekt zur automatischen Identifikation und Klassifikation sprachlicher Besonderheiten in der internetbasierten Kommunikation vorgestellt. Die Datengrundlage für die Entwicklung und Evaluation der Verfahren bildete das Wikipedia-Korpus in DeReKo.

*Beitrag: "Mining corpora of computer-mediated communication: Analysis of linguistic features in Wikipedia talk pages using machine learning." Posterpräsentation im Rahmen des Workshops "NLP4CMC: Natural Language Processing for Computer-Mediated Communication / Social Media" bei der KONVENS 2014 (Michael Beißwenger, Harald Lüngen, Eliza Margaretha & Christian Pölitz)

==Dritter Projekt-Workshop am 25./26. September 2014 (Mannheim)==

Am 25./26.09.2014 fand an der Universität Mannheim das dritte Arbeitstreffen des Projekts statt. Im Vordergrund stand der Austausch über die bereits erreichten Projektziele der Entwicklungs- und Evaluationsphase sowie über die geplanten Arbeiten in der bevorstehenden Integrationsphase. Am ersten Workshoptag stellten Beteiligte aus allen Teilprojekten des Projektverbunds in öffentlichen Vorträgen bislang erzielte Ergebnisse und laufende Arbeiten vor. Der zweite Workshoptag diente der konkreteren internen Planung der nächsten Projektphase sowie der Abschlusstagung am 29./30. Oktober 2015 an der [http://www.bbaw.de/|Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW)].

*[[Dokumentation: 3. Projektworkshop (September 2014)]]

==4th General DARIAH VCC meeting, 17.-19. September 2014 (Rom)==

Beim DARIAH-Meeting in Rom waren wir in Kooperation mit Kolleginnen und Kollegen aus der [http://www.tei-c.org/Activities/SIG/CMC/ TEI-SIG "Computer-Mediated Comunication"] an der Ausrichtung einer Community Session zum Thema [http://dariah.eu/activities/general-vcc-meetings/4th-general-vcc-meeting/programme/community-sessions.html "Models and tools for structuring & annotating corpora of social media / computer-mediated communication"] beteiligt. Im Rahmen dieser Veranstaltung haben wir erste Ergebnisse aus den Fallstudien im Bereich "Varietätenlinguistik / Internetbasierte Kommunikation" vorgestellt und mit Blick auf die Entwicklung von Standards für den Aufbau von Korpora internetbasierter Kommunikation diskutiert.

Beiträge:

*"Analyzing CMC corpora using machine learning methods: Report from the KobRA project." [http://www.dariah.eu/activities/general-vcc-meetings/4th-general-vcc-meeting.html 4th General Virtual Competency Centre (VCC) meeting of DARIAH-EU] (Michael Beißwenger & Christian Pölitz)

*"Applying the TEI CMC SIG proposal to Wikipedia discussion corpora" [http://www.dariah.eu/activities/general-vcc-meetings/4th-general-vcc-meeting.html 4th General Virtual Competency Centre (VCC) meeting of DARIAH-EU] (Harald Lüngen & Eliza Margaretha)

==EURALEX 2014, 15.-19. Juli 2014 (Bozen)==

In ihrem Vortrag zur Nutzung des DWDS-Wortprofils beim Aufbau eines lexikalischen Informationssystems zu deutschen Stützverbgefügen im Rahmen des [http://euralex2014.eurac.edu/de/Pages/default.aspx ''XVI. internationalen EURALEX-Kongresses'', ausgerichtet an der Europäischen Akademie in Bozen (EURAC)], gaben Jörg Didakowski und Nadja Radtke einen guten Einblick in die Fragestellungen und korpus-/technologie-basierten Ansätze im [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld diachronische Sprachforschung/Stützverbgefüge]].

*Beitrag: "Nutzung des DWDS-Wortprofils beim Aufbau eines lexikalischen Informationssystems zu deutschen Stützverbgefügen." Vortrag im Rahmen des [http://euralex2014.eurac.edu/en/Pages/default.aspx ''XVI EURALEX International Congress (EURALEX 2014)'' an der European Academy of Bolzano/Bozen (EURAC)] (Jörg Didakowski, Nadja Radtke)

==DH 2014, 7.-12. Juni 2014 (Lausanne)==

Nach einem erfolgreich eingereichten Paper zu Ergebnissen aus dem [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Lexikographie]] war das KobRA-Projekt auch auf der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', [http://dh2014.org/ ''Digital Humanities''], in Lausanne präsent. Im Rahmen einer Posterpräsentation konnten wir in einen erkenntnisreichen Austausch mit Vertretern verwandter Projekte treten und interessante neue Kontakte knüpfen.

*Beitrag: "Neue Möglichkeiten der Arbeit mit strukturierten Sprachressourcen in den Digital Humanities mithilfe von Data-Mining." Posterpräsentation im Rahmen der [http://dh2014.org/ ''Digital Humanities 2014'' in Lausanne] (Thomas Bartz, Michael Beißwenger, Christian Pölitz, Nadja Radtke, Angelika Storrer)

==LaTeCH 2014, 26. April 2014 (Göteborg)==

Die im Rahmen der Fallstudien im [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Lexikographie]] bislang angewandten Verfahren wurden in einem Vortrag beim [http://sighum.science.ru.nl/latech2014/index.html 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)''] vorgestellt. Der Workshop fand in Verbindung mit der [http://eacl2014.org/ 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)''] statt.

* Beitrag: "Enhancing the possibilities of corpus-based investigations: Word sense disambiguation on query results of large text corpora." Vortrag beim [http://sighum.science.ru.nl/latech2014/index.html 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)''] im Rahmen der [http://eacl2014.org/ 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)''] (Christian Pölitz, Thomas Bartz)

==DHd 2014, 25.-28. März 2014 (Passau)==

Das KobRA-Projekt war mit einer Posterpräsentation und einem Kurzvortrag im Rahmen des Poster-Slams bei der [http://www.dhd2014.uni-passau.de/ ersten Jahrestagung des Verbands ''Digital Humanities im deutschsprachigen Raum (DHd)'' in Passau] vertreten. Vorgestellt wurden Projektergebnisse aus dem [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Lexikographie]], die in Zusammenarbeit mit dem Projektpartner an der Berlin-Brandenburgischen Akademie der Wissenschaften erzielt wurden.

* Beitrag: "Disambiguierung in Suchtrefferlisten aus großen Textkorpora: Anwendungsfelder und Perspektiven." Kurzvortrag und Posterpräsentation im Rahmen der [http://www.dhd2014.uni-passau.de/ ersten Jahrestagung des Verbands ''Digital Humanities im deutschsprachigen Raum (DHd)'' in Passau] (Thomas Bartz, Alexander Geyken, Christian Pölitz, Achim Saupe, Angelika Storrer)

=="Social Media Corpora for the eHumanities", Februar 2014 (Dortmund)==

Im Februar 2014 fand an der TU Dortmund die Abschlusstagung des DFG-Netzwerks ''[http://www.empirikom.net Empirische Erforschung internetbasierter Kommunikation (Empirikom)]'' statt. In die Tagung integriert war das zweite offizielle Arbeitstreffen der [http://www.tei-c.org/Activities/SIG/CMC/ Special Interest Group "Computer-Mediated Communication"] der ''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]'', an dem mit Michael Beißwenger, Lothar Lemnitzer, Angelika Storrer und Andreas Witt KobRA-Vertreter aus Dortmund, Berlin und Mannheim mit Beiträgen beteiligt waren. Vorgestellt und diskutiert wurde u.a. der Entwurf zu einem Basisschema für die TEI-Repräsentation von Korpora internetbasierter Kommunikation (IBK), das geeignet ist, nicht nur Korpora zu rein schriftbasierten IBK-Genres, sondern auch Korpora mit Sprachdaten aus multimodalen Kommunikationsumgebungen zu repräsentieren.

Darüber hinaus stellten Thomas Bartz, Michael Beißwenger und Angelika Storrer in Verbindung mit Swantje Westpfahl (IDS Mannheim) Erweiterungen zum "Stuttgart-Tübingen-Tagset" für das POS-Tagging deutscher Sprachdaten vor, die auf die Behandlung von Phänomenen in Sprachdaten internetbasierter Kommunikation abgestimmt sind und die auch in den Arbeiten in KobRA Verwendung finden. Ein Beitrag von Angelika Storrer zur Modellierung von Phänomenen "nichtstandardisierter" Schriftlichkeit bei der Sprachverwendung in sozialen Medien lieferte dazu einen theoretischen Beschreibungsrahmen.

Die Tagungsbeiträge mit KobRA-Bezug im Einzelnen:
* "A Basic Schema for Modeling Computer-Mediated Communication in TEI" (Michael Beißwenger, Maria Ermakova, Thierry Chanier, Kun Jin, Lothar Lemnitzer und Angelika Storrer)
* "General Requirements and Issues in Defining a TEI Schema for the Representation of Computer-Mediated Communication" (Michael Beißwenger)
* "Relations and Options for Cooperation between the SIG 'TEI for Linguists' and the SIG 'Computer-Mediated Communication'" (Andreas Witt)
* "Ein erweitertes STTS-Tagset für die POS-Annotation von Korpora gesprochener Sprache und von Korpora internetbasierter Kommunikation" (Thomas Bartz, Michael Beißwenger, Angelika Storrer und Swantje Westpfahl)
* "Was ist eigentlich der Standard? Varietätenlinguistische Überlegungen zur Einordnung von interaktionsorientierter Schriftlichkeit als 'non-standard', 'standardfern' etc. (Angelika Storrer)
* "Vorbereitung einer Shared Task zur automatischen linguistischen Annotation von Sprachdaten aus Genres internetbasierter Kommunikation: Werkstattbericht" (Michael Beißwenger, Sabine Bartsch, Stefan Evert und Kay-Michael Würzner)

==TEI 2013, 2.-5. Oktober 2013 (Rom)==

Mit der Ausrichtung eines Panels sowie eines Arbeitstreffens der neu gegründeten Special Interest Group (SIG) "Computer-Mediated Communication" war KobRA (vertreten durch Thomas Bartz, Michael Beißwenger und Angelika Storrer) an der diesjährigen [http://digilab2.let.uniroma1.it/teiconf2013/ Konferenz der ''Text Encoding Initiative'' (TEI) in Rom] beteiligt.

Gemeinsam mit Kooperationspartnern aus Deutschland, Frankreich, Italien und den Niederlanden wurden aktuelle Arbeiten zur Standardisierung von Schemata für die linguistische Annotation von Sprachdaten aus Genres internetbasierter Kommunikation präsentiert. Im Rahmen des von Michael Beißwenger & Lothar Lemnitzer organisierten Panels wurde anhand von Daten aus Korpus- und Forschungsprojekten zu verschiedenen europäischen Sprachen (für das Deutsche: Daten aus DeRiK und KobRA) ein Umriss sprachlicher und struktureller Besonderheiten internetbasierter Kommunikation präsentiert und wurden Herausforderungen und Möglichkeiten der automatischen und standardisierten Annotation solcher Phänomene in Korpora diskutiert.

Im Rahmen der von Michael Beißwenger koordinierten SIG wurden Schnittstellen zwischen laufenden Arbeiten in KobRA und DeRiK und vergleichbaren Arbeiten in Projekten zu anderen Sprachen identifiziert und Kooperationen in Hinblick auf die Erarbeitung von Lösungen für die automatische Annotation relevanter Phänomene vereinbart. Die Ergebnisse des Panels, der SIG und der vereinbarten Kooperationen fließen in die weitere Projektarbeit im [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Varietätenlinguistik/Internetbasierte Kommunikation]] ein.

Die Konferenzbeiträge mit KobRA-Bezug im Einzelnen:

*Three-Paper Panel: [http://wiki.tei-c.org/images/8/85/Teicmcpanel2013expose.pdf Computer-Mediated Communication in TEI: What Lies Ahead] (organisiert von Michael Beißwenger & Lothar Lemnitzer mit Beiträgen von Michael Beißwenger, Thierry Chanier, Isabella Chiari, Maria Ermakova, Maarten van Gompel, Iris Hendrickx, Axel Herold, Henk van den Heuvel und Angelika Storrer)
*Arbeitstreffen der [http://www.tei-c.org/Activities/SIG/CMC/ SIG "Computer-Mediated Communication"] (organisiert von Michael Beißwenger mit Beiträgen von Thomas Bartz, Angelika Storrer, Thierry Chanier, Isabella Chiari, Maria Ermakova und Iris Hendrickx)

==GSCL 2013, 23.-27. September 2013 (Darmstadt)==

Mit mehreren Einzelbeiträgen sowie der Ausrichtung eines Workshops haben VertreterInnen des KobRA-Projekts auf der [http://gscl2013.ukp.informatik.tu-darmstadt.de/ International Conference of the German Society for Computational Linguistics and Language Technology (GSCL) 2013] laufende Arbeiten zur automatischen Analyse von Sprachdaten aus Genres internetbasierter Kommunikation und zur Nutzung von Informatikmethoden für die korpusgestützte Sprachanalyse präsentiert. Die Ergebnisse der Diskussionen im Rahmen des Workshops, der Postersession und des Kurzpaper-Formats "GSCL-Kaleidoskop" fließen in die weitere Projektarbeit im [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Varietätenlinguistik/Internetbasierte Kommunikation]] ein.

Die Konferenzbeiträge mit KobRA-Bezug im Einzelnen:
*Workshop: [http://empirikom.net/bin/view/Aktivitaeten/GsclWorkshop Verarbeitung und Annotation von Sprachdaten aus Genres internetbasierter Kommunikation] (organisiert von Michael Beißwenger und Angelika Storrer in Verbindung mit Anke Lüdeling (Berlin) und dem [http://www.empirikom.net DFG-Netzwerk Empirikom])
*"Vorbereitung einer Shared Task zur Verarbeitung von Sprachdaten aus Genres internetbasierter Kommunikation / Preparing a Shared Task on Linguistic Annotation of Computer-Mediated Communication." Vortrag und Posterpräsentation im Rahmen des ''GSCL-Kaleidoskop'' (Michael Beißwenger in Kooperation mit Stefan Evert, Kay-Michael Würzner und Sabine Bartsch)
* "Domain Adaptation in Corpus Linguistics." Vortrag im Rahmen des ''GSCL-Kaleidoskop'' (Christian Pölitz)
* "Modifikation und Erweiterung von STTS für die Annotation von Gesprächskorpora und von Korpora zu Genres internetbasierter Kommunikation." Vortrag im Rahmen des ''GSCL-Kaleidoskop'' (Thomas Bartz, Michael Beißwenger und Angelika Storrer in Verbindung mit Ines Rehbein, Thomas Schmidt und Swantje Westpfahl)

==GAL 2013, 19./20. September 2013 (Aachen)==

Auf der [http://www.gal2013.ifaar.rwth-aachen.de 2. Sektionentagung der Gesellschaft für Angewandte Linguistik e.V. (GAL 2013)] haben die Dortmunder Projektmitarbeiter Thomas Bartz, Nadja Radtke und Christian Pölitz erste Ergebnisse der KobRA-Projektarbeiten zu den Aufgabenbereichen Klassifikation und Disambiguierung von Treffern bzw. Trefferlisten vorgestellt. Ausgangspunkt für den gemeinsamen Vortrag sind die Arbeiten im [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfeld Lexikographie]], in die auch Ergebnisse und Anregungen aus der Sektionsarbeit unmittelbar einfließen.

Beiträge aus der Sektion "Lexikographie":
* Vortrag: "Bereinigen, Disambiguieren, Visualisieren: Möglichkeiten der Unterstützung der korpusbasierten Lexikographie durch Data-Mining-Verfahren" (Thomas Bartz, Nadja Radtke & Christian Pölitz sowie die Kollegen der BBAW)

*Vortrag: "Extraktion guter Belege aus gegenwartssprachlichen Korpora und deren lexikographische Bewertung - Möglichkeiten und Grenzen" (Isabel Fuhrmann, Alexander Geyken, Lothar Lemnitzer, Norbert Schrader)

==IDT 2013, 29. Juli bis 3. August 2013 (Bozen)==

Mit zwei Einzelvorträgen und einem Posterstand haben Nadja Radtke und Thomas Bartz KobRA auf der [http://www.idt-2013.it XV. Internationalen Tagung der Deutschlehrerinnen und Deutschlehrer (IDT 2013)] in Bozen vertreten und potenzielle Anwender aus den Bereichen Schule und Lehrerbildung als Multiplikatoren für die Aufgaben und Lösungen des Projekts gewinnen können.

In ihrem Vortrag in der Sektion "Wortschatz und Phraseologie" zeigte Nadja Radtke typische Bereinigungs- und Klassifikationsaufgaben, die sich beim korpus-basierten Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen im Rahmen ihres Dissertationsprojektes gestellt haben, und für die KobRA-Lösungen entwickelt werden.

Thomas Bartz stellte in seinem Vortrag in der Sektion "Korpora im Sprachunterricht" Möglichkeiten und Grenzen des Einsatzes aktuell existierender digitaler Sprachressourcen im Deutschunterricht sowie zu erwartende Verbesserungen durch KobRA-Lösungen vor.

Nadja Radtke und Thomas Bartz präsentierten im Rahmen einer sektionsübergreifenden Posterpräsentation Möglichkeiten der Nutzung deutschsprachiger Onlinekorpora im Unterricht und neue Potenziale für diesen Anwendungsbereich, die sich durch die KobRA-Projektarbeiten ergeben.

Der direkte Kontakt zu Nutzern von Korpora und Sprachressourcen in Lehr-/Lernkontexten brachte wichtige Anregungen insbesondere für die [[Projektbeschreibung#Wissenschaftliche Anwendungsfelder ("use cases")|Anwendungsfelder Lexikographie und Diachronische Sprachforschung]].

Die Konferenzbeiträge mit KobRA-Bezug im Einzelnen:
*"Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen." Vortrag im Rahmen der Sektion "Wortschatz und Phraseologie" (Nadja Radtke)
* "Digitale Sprachressourcen im Deutschunterricht: Korpus-basierte Recherche und Analyse in der "Wörterbuchwerkstatt"." Vortrag im Rahmen der Sektion "Korpora im Sprachunterricht" (Thomas Bartz)
* "Nutzung deutschsprachiger Onlinekorpora im Unterricht." Ausgewählter Beitrag der Sektion "Korpora im Sprachunterricht" für die sektionsübergreifende Posterpräsentation "Agorá" (Thomas Bartz & Nadja Radtke)

==Zweiter Projekt-Workshop am 18./19. April 2013 (Dortmund)==

Am 18./19.04.2013 fand an der TU Dortmund das zweite Arbeitstreffen des Projekts statt. Neben einer Einführung in RapidMiner, die von [http://www-ai.cs.uni-dortmund.de/PERSONAL/morik.html Prof. Dr. Katharina Morik] angeboten wurde, standen dabei auch die Werkstattberichte der Projektpartner sowie die Dortmunder Werkstattberichte auf dem Programm. Das Ziel des zweiten Arbeitstreffens war u.a. das Verabschieden der Aufgabenliste sowie das Festlegen des Meilensteins 1.

*[[Dokumentation: 2. Projektworkshop (April 2013)]]

==Kick-off-Treffen der BMBF-Projektverbünde, 8./9. April 2013 (Leipzig)==

Am 8./9. April 2013 fand an der Universität Leipzig das Kick-off-Treffen der 24 Projektverbünde statt, die im Rahmen des [http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities] vom BMBF gefördert werden. Bei diesem Treffen wurde KobRA - wie auch die anderen 24 Projekte - im Rahmen einer Posterpräsentation vorgestellt.

*[[Media:Kobra-poster-leipzig-final-2.pdf|KobRA-Poster (PDF)]]
*[[Media:Projektbeschreibung-KobRA-final.pdf|Projektbeschreibung als Teil der Tagungsunterlagen (PDF)]]

==Kick-off-Meeting der KobRA-Partner am 15./16. November 2012 (Dortmund)==

Am 15./16.11.2012 fand im Erich-Brost-Haus der TU Dortmund das erste Arbeitstreffen des Projekts statt. Neben einem Überblick über Ziele und Fragestellungen sowie einer Vorstellung von Ressourcen und Verfahren in KobRA standen dabei auch Vorträge eingeladener Gastwissenschaftler auf dem Programm.

*[[Dokumentation: Kick-off-Meeting (November 2012)]]

Aktivitäten

2016-03-03T15:58:15Z

Weber: /* KobRA-Fachtagung, 30. Oktober 2015, BBAW (Berlin) */