http://kobra.tu-dortmund.de/mediawiki/api.php?action=feedcontributions&user=Hoffmann&feedformat=atomKobra - Benutzerbeiträge [de]2024-03-29T14:24:24ZBenutzerbeiträgeMediaWiki 1.27.7http://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_9_Vorkommen_des_Wortes_%E2%80%9Ezeitnah%E2%80%9C_mit_seinen_unterschiedlichen_Bedeutungen_im_Zeitraum_1940-2010.png&diff=763Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png2015-07-24T09:12:48Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_8_Vorkommen_des_Wortes_%E2%80%9EHeuschrecke%E2%80%9C_mit_seinen_unterschiedlichen_Bedeutungen_im_Zeitraum_1940-2010.png&diff=762Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png2015-07-24T09:12:38Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_7_Vorkommen_des_Wortes_%E2%80%9Eanrufen%E2%80%9C_mit_seinen_unterschiedlichen_Bedeutungen_in_den_Dekaden_des_20_Jh.png&diff=761Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png2015-07-24T09:12:28Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_6_Vorkommen_des_Wortes_%E2%80%9Etoll%E2%80%9C_mit_seinen_unterschiedlichen_Bedeutungen_in_den_Dekaden_des_20_Jh.png&diff=760Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png2015-07-24T09:12:19Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_5_Vorkommen_des_Wortes_%E2%80%9EPlatte%E2%80%9C_mit_seinen_unterschiedlichen_Bedeutungen_in_den_Dekaden_des_20_Jh.png&diff=759Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png2015-07-24T09:12:05Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=758Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-24T09:11:03Z<p>Hoffmann: /* 9 Literatur */</p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:<br />
<br />
=== 7.1 „Platte“ ===<br />
<br />
[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.<br />
<br />
=== 7.2 „toll“ ===<br />
<br />
[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''irre'' und ''ausgelassen/wild'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good'' mehr und mehr prominent.<br />
<br />
=== 7.3 „anrufen“ ===<br />
<br />
[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.<br />
<br />
=== 7.4 „Heuschrecke“ ===<br />
<br />
[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.<br />
<br />
=== 7.5 „zeitnah“ ===<br />
<br />
[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.<br />
<br />
== 8 Fazit ==<br />
<br />
Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.<br />
<br />
Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig. <br />
<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.<br />
<br />
== 9 Literatur ==<br />
<br />
*David M. Blei, Andrew Y. Ng, and Michael I. Jordan. (2003). ''Latent dirichlet allocation. Journal of Machine Learning Research, 3'' (3), 993-1022.<br />
*David M. Blei and John D. Lafferty. (2006). Dynamic topic models. In ''Proceedings of the 23rd international conference on Machine learning'', 113-120.<br />
*Samuel Brody and Mirella Lapata. (2009). Bayesian word sense induction. In: ''Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics'', 103-111.<br />
*Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. (1991). Word-sense disambiguation using statistical methods. In ''Proceedings of the 29th Annual Meeting on Association for Computational Linguistics'', 264–270.<br />
*Jacob Cohen. (1960). A coefficient of agreement for nominal scales. In ''Educational and Psychological Measurement'' 20, 37-46.<br />
*Stefan Engelberg and Lothar Lemnitzer. (2009). ''Lexikographie und Wörterbuchbenutzung''. Tübingen: Stauffen-burg.<br />
*Tony McEnery, Richard Xiao, and Yukio Tono. (2006). ''Corpus-Based Language Studies – an advanced resource book''. London: Routledge.<br />
*Gerd Fritz. (2012). Theories of meaning change – an overview. In C. Maienborn et al. (Eds.), ''Semantics. An International Handbook of Natural Language Meaning''. Volume 3. Berlin: de Gruyter, 2625-2651.<br />
*Gerd Fritz. (2005). ''Einführung in die historische Semantik''. Tübingen: Niemeyer.<br />
*Alexander Geyken. (2007). The DWDS corpus. A reference corpus for the German language of the twentieth century. In C. Fellbaum (Ed.), ''Idioms and collocations. Corpus-based linguistic and lexicographic studies''. London: Continuum, 23-40.<br />
*Thomas L. Griffiths and Mark Steyvers. (2004). Finding scientific topics. In ''Proceedings of the National Academy of Sciences, 101'' (Suppl. 1), 5228-5235.<br />
*Erhard Hinrichs and Thomas Zastrow. (2012). Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. In ''Proceedings of the 8th International Conference on Language Resources and Evaluation'', 1622-1627.<br />
*Rudi Keller and Ilja Kirschbaum. (2003). ''Bedeutungswandel. Eine Einführung''. Berlin: de Gruyter.<br />
*Dan Klein & Christopher D. Manning (2003): Accurate unlexicalized parsing. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics – Volume 1, ACL ’03, pag-es 423–430, Stroudsburg, PA, USA. Association for Computational Linguistics.<br />
*Wolfgang Klein and Alexander Geyken. (2010). Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In U. Heid et al. (Eds.), ''Lexikographica''. Berlin: de Gruyter, 79-93.<br />
*Anke Lüdeling and Merja Kytö. (Eds.). (2008). ''Corpus Linguistics. An International Handbook''. Volume 1. Berlin: de Gruyter.<br />
*Anke Lüdeling and Merja Kytö. (Eds.). (2009). ''Corpus Linguistics. An International Handbook''. Volume 2. Berlin: de Gruyter.<br />
*Ingo Mierswa et al. (2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. In ''Proceedings of the 12th International Conference on Knowledge Discovery and Data Mining''.<br />
*Roberto Navigli. (2009). Word sense disambiguation: A survey. ''ACM Computing Surveys, 41'' (2), 10:1-10:69.<br />
*Roberto Navigli and Giuseppe Crisafulli. (2010). Inducing word senses to improve web search result clustering. In ''Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing'', 116-126.<br />
*Roberto Navigli and Daniele Vannella. (2013). Semeval-2013 task 11: Word sense induction and disambiguation within an end-user application. In ''Second Joint Conference on Lexical and Computational Semantics, Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation'', 193-201.<br />
*Uwe Quasthoff, Matthias Richter, and Chris Biemann. (2006). Corpus Portal for Search in Monolingual Corpora. In ''Proceedings of the fifth international conference on Language Resources and Evaluation'', 1799-1802.<br />
*Christian Rohrdantz et al. (2011). Towards Tracking Semantic Change by Visual Analytics. In ''Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics'', 305-310.<br />
*Paul Rayson and Mark Stevenson. (2008). Sense and semantic tagging. In A. Lüdeling and M. Kytö (Eds.), ''Corpus Linguistics''. Volume 1. Berlin: de Gruyter, 564-578.<br />
*Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, and Thomas Griffiths. (2004). Probabilistic author-topic models for information discovery. In ''Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining'', 306–315.<br />
*Angelika Storrer. (2011). Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In K. Knapp et al.(Eds.), ''Angewandte Linguistik. Ein Lehrbuch''. 3. vollst. überarb. und erw. Aufl. Tübingen: Francke, 216-239.</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=757Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-24T09:03:14Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:<br />
<br />
=== 7.1 „Platte“ ===<br />
<br />
[[Datei:Abbildung 5 Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 5: Vorkommen des Wortes „Platte“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 5 veranschaulicht nachvollziehbar die Bedeutungsentwicklung von „Platte“. Die Bedeutung ''Festplatte'' wird in den 90er Jahren sprunghaft frequent, während sich die anderen Bedeutungen bei einzelnen Phasen häufigerer Verwendung auf einem einigermaßen gleichbleibenden Niveau bewegen. Die Phasen häufigerer Verwendung (z.B. in der Bedeutung ''Teller'' in den 40er bis 60er Jahren oder in der Bedeutung ''fotografische Platte'' in den 80er/90er Jahren) bieten Anlass für genauere Untersuchungen unter Berücksichtigung der zugrundeliegenden KwiC-Snippets.<br />
<br />
=== 7.2 „toll“ ===<br />
<br />
[[Datei:Abbildung 6 Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 6: Vorkommen des Wortes „toll“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 6 macht die Bedeutungsentwicklung des Wortes „toll“ im 20. Jahrhundert deutlich. In dem Maße, wie die älteren Bedeutungen ''irre'' und ''ausgelassen/wild'' in der Frequenz zurückgehen, wird die neuere Bedeutung ''very good'' mehr und mehr prominent.<br />
<br />
=== 7.3 „anrufen“ ===<br />
<br />
[[Datei:Abbildung 7 Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20 Jh.png|mini|1000px|links|Abbildung 7: Vorkommen des Wortes „anrufen“ mit seinen unterschiedlichen Bedeutungen in den Dekaden des 20. Jh.]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 7 zeigt den starken Anstieg der Verwendung des Wortes „anrufen” in der Bedeutung ''telefonieren'' parallel zur kommerziellen Verbreitung des Telefons. Der in beiden Bedeutungen auftretende sägezahnartige Frequenzverlauf zwischen 1930 und 1970 könnte auf Unregelmäßigkeiten in der Ausgewogenheit der Korpusbasis hinweisen.<br />
<br />
=== 7.4 „Heuschrecke“ ===<br />
<br />
[[Datei:Abbildung 8 Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 8: Vorkommen des Wortes „Heuschrecke“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 8 verdeutlicht den sprunghaften Anstieg der Verwendung von „Heuschrecke“ in der Bedeutung ''Person'' in den 2000er Jahren, der Dekade, an deren Ende die internationale Finanz- und Bankenkriese steht. Auffällig ist auch der schnelle Rückgang der Frequenz zur 2010er-Dekade hin. Dabei ist jedoch zu berücksichtigen, dass zu dieser Dekade bislang noch deutlich weniger Dokumente vorliegen als zu den übrigen Dekaden.<br />
<br />
=== 7.5 „zeitnah“ ===<br />
<br />
[[Datei:Abbildung 9 Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010.png|mini|1000px|links|Abbildung 9: Vorkommen des Wortes „zeitnah“ mit seinen unterschiedlichen Bedeutungen im Zeitraum 1940-2010]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Abbildung 9 zeigt schließlich die sprungartige Entwicklung der Bedeutung ''unverzüglich'' zu einer neuen, als prototypisch zu betrachtenden Bedeutung von „zeitnah“ ab den 2000er Jahren. Interessant ist allerdings auch der gleichzeitige Anstieg der Verwendung des Wortes in seiner älteren Bedeutung ''zeitgenössisch/zeitkritisch''. Ob dieser tatsächlich existent ist, oder ob es sich dabei um eine Kumulierung von falsch positiven Bedeutungszuordnungen handelt, wäre auf Basis der KwiC-Snippets noch zu prüfen.<br />
<br />
== 8 Fazit ==<br />
<br />
Auf dieser Seite wurden Fallstudien des KobRA-Anwendungsbereichs Lexikographie vorgestellt. Im Fokus stand die automatische Disambiguierung von Homonymen und Polysemen unterschiedlicher Wortarten, zu denen verschiedene Korpora abgefragt wurden. Ein zuverlässiges automatisches Verfahren in diesem Bereich würde die Möglichkeiten der Korpus-basierten linguistischen Forschung zum Bedeutungswandel und der Korpus-basierten lexikographischen Sprachbeschreibung erheblich erweitern. Die Leistungsfähigkeit des automatischen Verfahrens wurde mithilfe eines durch zwei unabhängige Annotatoren manuell disambiguierten Datensets evaluiert.<br />
<br />
Die Evaluation ergab insgesamt zufriedenstellende Ergebnisse. Die automatische Disambiguierung lässt sich bei Inhaltswörtern wie Substantiven, Verben oder Adjektiven mit ähnlicher Aussicht auf Erfolg durchführen. Lediglich die Anwendbarkeit bei grammatischen Funktionswörtern ist in Frage zu stellen, bzw. in zusätzlichen Studien weiter zu untersuchen. Auswirkungen auf die Güte der Ergebnisse hat vor allem die Anzahl der Bedeutungen des zu untersuchenden Wortes (je weniger desto besser). Außerdem scheint in den meisten Fällen ein mittelgroßer Wortkontext zu den besten Ergebnissen zu führen. Die Anzahl der berücksichtigten KWIC-Snippets hatte in einem Bereich zwischen 500-5000 keine erkennbare Auswirkung auf das Ergebnis der automatischen Disambiguierung, ebensowenig das verwendete (orthographisch normalisierte) Korpus. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig. <br />
<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Mithilfe der in den Metadaten vorhandenen Publikationsdaten von Belegen können nun Prozesse des Bedeutungswandels im zeitlichen Verlauf sichtbar gemacht werden. Die Entwicklung und Erprobung interaktiver Visualisierungen, die einen direkten Zugriff auf die zugrundeliegende Korpusbasis ermöglichen, wäre ein wünschenswerter nächster Innovationsschritt.<br />
<br />
== 9 Literatur ==</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=756Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:23:25Z<p>Hoffmann: /* 6.4 Anzahl an Snippets und Größe des Kontexts */</p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 7) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=755Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:23:11Z<p>Hoffmann: /* 6.4 Anzahl an Snippets und Größe des Kontexts */</p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 9) und „Heuschrecke“ (Tabelle 6) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 3), „toll“ (Tabelle 8) oder „anrufen“ (Tabelle 5) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 5) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 7) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=754Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:22:36Z<p>Hoffmann: /* 6.3 Korpus und Sprache */</p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 4) sind mit denen aus der TüBa-D/DC (Tabelle 8) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 10). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 9) und „Heuschrecke“ (Tabelle 8) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 5), „toll“ (Tabelle 10) oder „anrufen“ (Tabelle 7) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 7) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 9) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=753Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:22:11Z<p>Hoffmann: /* 6.2 Anzahl der Bedeutungen */</p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 4) und „cloud“ (Tabelle 10) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 3) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 6) sind mit denen aus der TüBa-D/DC (Tabelle 10) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 12). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 9) und „Heuschrecke“ (Tabelle 8) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 5), „toll“ (Tabelle 10) oder „anrufen“ (Tabelle 7) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 7) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 9) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=752Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:21:39Z<p>Hoffmann: /* 6.1 Wortart */</p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 6) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 7) oder „anrufen“ (Tabelle 5). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 3) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 9). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 6) und „cloud“ (Tabelle 12) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 5) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 6) sind mit denen aus der TüBa-D/DC (Tabelle 10) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 12). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 9) und „Heuschrecke“ (Tabelle 8) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 5), „toll“ (Tabelle 10) oder „anrufen“ (Tabelle 7) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 7) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 9) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=751Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:18:50Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small><br />
<br />
Die Evaluation zeigt, dass die avisierte Aufgabenstellung der automatischen Disambiguierung von KwiC-Snippets aus Korpusabfragen mit dem oben beschriebenen Ansatz (s. 2.3) zu überwiegend zufriedenstellenden Ergebnissen führt. In den günstigsten Treatments liegen die F1-Werte für die Zuverlässigkeit des Verfahrens im Durchschnitt bei 0,732. Je nach untersuchtem Wort und gewünschter Bedeutung variieren die Werte allerdings zum Teil relativ stark in einem Bereich zwischen 0,381 und 0,998 (wiederum im günstigsten Treatment). Generelle Aussagen über die Leistungsfähigkeit des Verfahrens sind also nur schwer möglich. Abhängig von den oben formulierten systematischen Unterschieden der Treatments lassen sich aber folgende Trends feststellen:<br />
<br />
=== 6.1 Wortart ===<br />
Den untersuchten Beispielen zufolge scheint die automatische Disambiguierung bei Substantiven, Verben und Adjektiven grundsätzlich mit ähnlichem Erfolg möglich zu sein. Bei „Heuschrecke“ (Tabelle 8) erzielte das Verfahren ebenso gute Werte wie bei „zeitnah“ (Tabelle 9) oder „anrufen“ (Tabelle 7). Die Spitzenwerte wurden jedoch allesamt bei Substantiven (s. auch Tabelle 5) erreicht. Die feineren Bedeutungsunterschiede bei der Konjunktion „da“ ließen sich nicht zufriedenstellend erkennen (Tabelle 11). Erfolgversprechend ist das Verfahren also vor allem bei Inhaltswörtern. Dies ist aufgrund ihrer semantisch referenzierenden Funktion auch erwartbar. Die Eignung bei grammatischen Funktionswörtern muss in zusätzlichen Studien weiter untersucht werden.<br />
<br />
=== 6.2 Anzahl der Bedeutungen ===<br />
Hingegen scheint die Anzahl der Bedeutungen bei den untersuchten Beispielen die Ergebnisse systematisch zu beeinflussen. Bei den Beispielen „toll“ (Tabelle 6) und „cloud“ (Tabelle 12) erzielte das Verfahren schlechtere Ergebnisse als bei den Beispielen mit nur zwei Bedeutungen. Dies trifft auch für einzelne Lesarten des Beispiels „Platte“ (see Table 5) zu, während für andere jedoch Spitzenwerte erreicht wurden. Grundsätzlich scheinen unterschiedliche Bedeutungen unterschiedlich gut erkennbar zu sein.<br />
<br />
=== 6.3 Korpus und Sprache ===<br />
Die ausgewählten Korpora (gegenwärtiges Deutsch vs. diachron, Deutsch vs. Englisch) scheinen grundsätzlich für die Aufgabe der automatischen Disambiguierung ähnlich gut geeignet zu sein. Die Ergebnisse für die Snippets zu „toll“ aus dem DWDS-KK (Tabelle 6) sind mit denen aus der TüBa-D/DC (Tabelle 10) etwa vergleichbar; dies gilt auch für die Ergebnisse zum englischen Beispiel “cloud” (Tabelle 12). Dieses Evaluationsergebnis ist insofern erwartbar, als die Texte der diachronen TüBa-D/DC in orthographisch normalisierter Form vorliegen. Um die Leistungsfähigkeit des Verfahrens auch für diachrone Korpora mit orthographisch nicht normalisierten Sprachdaten überprüfen zu können, sind weitere Studien notwendig.<br />
<br />
=== 6.4 Anzahl an Snippets und Größe des Kontexts ===<br />
Während die Anzahl der vom Verfahren genutzten KwiC-Snippets (500-1000 vs. 1000-5000) für die untersuchten Beispiele keine systematischen Auswirkungen auf das Ergebnis zu haben scheint – „zeitnah“ (Tabelle 9) und „Heuschrecke“ (Tabelle 8) werden ähnlich gut disambiguiert wie „Platte“ (Tabelle 5), „toll“ (Tabelle 10) oder „anrufen“ (Tabelle 7) – erweist sich für die Größe des Kontexts ein Umfang von 30 Wörtern vor und nach dem untersuchten Wort in den meisten Fällen als ideal. Beim Verb „anrufen“ (Tabelle 7) scheint jedoch der größte Kontext am erfolgversprechendsten zu sein. Dies könnte damit zusammenhängen, dass das Verb in seiner Funktion eher auf den Satz als größere Einheit bezogen ist, während Substantive und Adjektive bereits im näheren Kontext spezifiziert werden. Dafür sprechen auch die leicht besseren Ergebnisse beim hauptsächlich adverbiell gebrauchten „zeitnah“ (Tabelle 9) im Treatment mit einem Kontext von 40 Wörtern.<br />
<br />
== 7 Anwendbarkeit im Rahmen der Forschung zum Bedeutungswandel ==<br />
Nach der automatischen Disambiguierung lassen sich auf einfachem Wege die Häufigkeiten der einzelnen Bedeutungen der untersuchten Wörter ermitteln und visualisieren. Die Abbildungen 6-10 veranschaulichen den Nutzen der Integration zeitlicher Informationen beim Generieren der Topic-Modelle: Forscher können auf dieser Basis leicht die Entwicklung disambiguierter lexikalischer Einheiten über die Zeit verfolgen:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=750Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T07:16:27Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small><br />
<br />
Das Disambiguierungsverfahren wurde auf Basis der manuell annotierten Datensätze evaluiert. Dazu wurden Topic-Modelle (s. 2.3) generiert, um die verschiedenen Bedeutungen der Vorkommen der untersuchten Wörter automatisch zu bestimmen. Diese wurden mit den Bedeutungszuweiseungen verglichen, die die Annotatoren manuell vorgenommen haben. Als Maß für die Zuverlässigkeit der automatischen Disambiguierung haben wir jeweils den F1-Wert bestimmt. Der F1-Wert gibt das gewichtete harmonische Mittel aus Präzision (Precision) und Ausbeute (Recall) an, wobei Präzision und Ausbeute gleich gewichtet werden (Navigli & Vanella 2013; s. auch 3.1).<br />
<br />
== 6 Ergebnisse ==<br />
<br />
Die folgenden Tabellen 5-12 zeigen die mit dem oben beschriebenen Verfahren erzielten Ergebnisse:<br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Platte“ !! flaches Werkstück !! Teller !! fotografische Platte !! Schallplatte/CD !! Festplatte<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,800 || 0,800 || 0,667 || 0,287 || 0,857<br />
|-<br />
! 30<br />
| 0,998 || 0,875 || 0,500 || 0,381 || 0,988<br />
|-<br />
! 40<br />
| 0,733 || 0,600 || 0,750 || 0,353 || 0,800<br />
|-<br />
|}<br />
<br />
<small>Tabelle 3: Ergebnisse für Treatment 1</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild !! sehr gut<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,519 || 0,571 || 0,167<br />
|-<br />
! 30<br />
| 0,714 || 0,615 || 0,632<br />
|-<br />
! 40<br />
| 0,625 || 0,667 || 0,500<br />
|-<br />
|}<br />
<br />
<small>Tabelle 4: Ergebnisse für Treatment 2</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „anrufen“ !! rufen/bitten !! telefonieren<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,800 || 0,800<br />
|-<br />
! 40<br />
| 0,909 || 0,889<br />
|-<br />
|}<br />
<br />
<small>Tabelle 5: Ergebnisse für Treatment 3</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „Heuschrecke“ !! Grashüpfer !! Person<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,857 || 0,842<br />
|-<br />
! 30<br />
| 0,800 || 0,933<br />
|-<br />
! 40<br />
| 0,667 || 0,727<br />
|-<br />
|}<br />
<br />
<small>Tabelle 6: Ergebnisse für Treatment 4</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „zeitnah“ !! unverzüglich !! zeitgenössisch/zeitkritisch<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,727 || 0,667<br />
|-<br />
! 30<br />
| 0,888 || 0,800<br />
|-<br />
! 40<br />
| 0,895 || 0,818<br />
|-<br />
|}<br />
<br />
<small>Tabelle 7: Ergebnisse für Treatment 5</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „toll“ !! irre !! ausgelassen/wild<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,571<br />
|-<br />
! 30<br />
| 0,625 || 0,750<br />
|-<br />
! 40<br />
| 0,556 || 0,636<br />
|-<br />
|}<br />
<br />
<small>Tabelle 8: Ergebnisse für Treatment 6</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „da“ !! temporal !! kausal<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,471 || 0,556<br />
|-<br />
! 30<br />
| 0,353 || 0,529<br />
|-<br />
! 40<br />
| 0,400 || 0,611<br />
|-<br />
|}<br />
<br />
<small>Tabelle 9: Ergebnisse für Treatment 7</small><br />
<br />
{| class="wikitable" style="text-align:center"<br />
|-<br />
! colspan="2" | „cloud“ !! Wolke !! Netzwerk !! Name<br />
|-<br />
! rowspan="3" style="width: 5em" | F1 für Kontext (Wörter) !! 20 <br />
| 0,526 || 0,500 || 0,471<br />
|-<br />
! 30<br />
| 0,783 || 0,631 || 0,615<br />
|-<br />
! 40<br />
| 0,467 || 0,545 || 0,684<br />
|-<br />
|}<br />
<br />
<small>Tabelle 10: Ergebnisse für Treatment 8</small></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=749Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-23T06:47:29Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):<br />
<br />
{| class="wikitable"<br />
|-<br />
! style="height: 3em"| Treatment !! Wort !! IAA<br />
|-<br />
| 1 || Platte || 0,82<br />
|-<br />
| 2 || toll || 0,76<br />
|-<br />
| 3 || anrufen || 0,97<br />
|-<br />
| 4 || Heuschrecke || 0,98<br />
|-<br />
| 5 || zeitnah || 0,91<br />
|-<br />
| 6 || toll || 0,71<br />
|-<br />
| 7 || da || 0,75<br />
|-<br />
| 8 || cloud || 0,92<br />
|-<br />
|}<br />
<small>Tabelle 2: Inter-Annotator-Agreement für die manuelle Disambiguierung durch zwei unabhängige Annotatoren</small></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=748Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T12:01:48Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small><br />
<br />
Für die Evaluation wurden jeweils 30% der für die untersuchten Wörter erhobenen KwiC-Snippets von zwei unabhängigen Annotatoren manuell disambiguiert. Tabelle 4 zeigt das erreichte Inter-Annotator-Agreement (kappa: Cohen, 1960):</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=747Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T12:00:12Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! rowspan="2" style="width: 3em"| Treat-ment !! rowspan="2" style="width: 4em"| Wort !! rowspan="2"| Wortart !! rowspan="2" style="width: 5em"| Bedeu-tungen !! rowspan="2" style="width: 5em"| Korpus !! rowspan="2"| Sprache !! rowspan="2"| Snippets !! colspan="3"| Kontext <br />
|-<br />
! 20 !! 30 !! 40<br />
|-<br />
| 1 || Platte || Substantiv || 5 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 2 || toll || Anjektiv || 3 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 3 || anrufen || Verb || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 4 || Heu-schrecke || Substantiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 5 || zeitnah || Adjektiv || 2 || gegenwarts-sprachlich || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 6 || toll || Adjektiv || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| style="height: 3em"| 7 || da || Konjunktion || 2 || diachron || deutsch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
| 8 || cloud || Substantik || 3 || gegenwarts-sprachlich || englisch || > 1000 || style="text-align:center" | X || style="text-align:center" | X || style="text-align:center" | X<br />
|-<br />
|}<br />
<small>Tabelle 1: Treatments für die Evaluation der unüberwachten Verfahren zur Disambiguierung</small></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=746Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T09:05:09Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:<br />
<br />
{| class="wikitable"<br />
|-<br />
! Topic 1 !! Topic 2 !! Topic 3 !! Topic 4 !! Topic 5<br />
|-<br />
| DDR || politisch || Berlin || Musik || hinauf<br />
|-<br />
| Abteilung || Partei || Prof. || München || Mann<br />
|-<br />
| Regierung || Korps || Dr. || New York || oben<br />
|-<br />
| Minister || Führer || Hochschule || Dirigent || gehen<br />
|-<br />
| ZK || Arbeit || Institut || Oper || Sprosse<br />
|-<br />
| SED || NSDAP || Lehrer || Komponist || Wand<br />
|-<br />
|}<br />
<small>Tabelle 6: Automatisch induzierte Topics und wahrscheinlichste Kontextwörter (Auszug aus Top 50)</small></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=745Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T08:53:17Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/><br />
<br />
== 4 Auswahl der Wörter und Korpora ==<br />
<br />
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.<br />
<br />
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.<br />
<br />
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.<br />
<br />
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.<br />
<br />
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.<br />
<br />
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.<br />
<br />
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.<br />
<br />
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.<br />
<br />
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).<br />
<br />
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).<br />
<br />
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.<br />
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.<br />
<br />
== 5 Experimente und Evaluation ==<br />
<br />
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:<br />
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?<br />
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?<br />
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?<br />
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?<br />
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?<br />
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=744Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T08:44:39Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.<br />
<br />
Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).<br />
<br />
[[Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png|mini|1000px|links|Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme]]<br />
<br />
<br style="clear:both;"/><br />
<br />
=== 3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“ ===<br />
<br />
Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.<br />
<br />
Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.<br />
<br />
[[Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png|mini|1000px|links|Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“]]<br />
<br />
<br style="clear:both;"/></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_4_Operatoren_des_KobRA-Plug-ins_im_Einsatz-_%E2%80%9ELinguisticQuery-Operator%E2%80%9C,_%E2%80%9ELDA-_Operator%E2%80%9C,_%E2%80%9EAnnotation-Operator%E2%80%9C.png&diff=743Datei:Abbildung 4 Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“.png2015-07-22T08:43:52Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_3_Verteilung_der_LDA-Topics_f%C3%BCr_Snippets_mit_dem_Wort_%E2%80%9EPlatte%E2%80%9C_%C3%BCber_die_Zeit_unter_der_Abh%C3%A4ngigkeitsanahme.png&diff=742Datei:Abbildung 3 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme.png2015-07-22T08:40:06Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=741Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T08:37:29Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
<br style="clear:both;"/><br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:<br />
<br />
φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.<br />
<br />
Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).<br />
<br />
=== 3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse ===<br />
<br />
Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.<br />
<br />
Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.<br />
<br />
Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.<br />
<br />
=== 3.3 Berücksichtigung zeitlicher Entwicklungen ===<br />
<br />
Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):<br />
<br />
[[Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png|mini|1000px|links|Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_2_Verteilung_der_LDA-Topics_f%C3%BCr_Snippets_mit_dem_Wort_%E2%80%9EPlatte%E2%80%9C_%C3%BCber_die_Zeit_unter_der_Unabh%C3%A4ngigkeitsannahme.png&diff=740Datei:Abbildung 2 Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme.png2015-07-22T08:36:09Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten&diff=739Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten2015-07-22T08:27:13Z<p>Hoffmann: </p>
<hr />
<div>[[Kategorie:Fallstudien]]<br />
<br />
== 1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie ==<br />
<br />
Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).<br />
<br />
== 2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren ==<br />
<br />
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:<br />
<br />
Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.<br />
<br />
Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.<br />
<br />
== 3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung ==<br />
<br />
=== 3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten ===<br />
<br />
Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.<br />
<br />
[[Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png|mini|1000px|links|Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)]]<br />
<br />
Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.<br />
<br />
Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_1_Abfrage_zum_Suchwort_%22toll%22_im_DWDS-Kernkorpus_des_20_Jh_%C3%BCber_das_Abfragesystem_des_DWDS_mit_Nutzung_des_Wortarten-Filters_(vgl_Geyken_2007,_Klein_%26_Geyken_2010).png&diff=738Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png2015-07-22T08:26:54Z<p>Hoffmann: Hoffmann lud eine neue Version von „Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png“ hoch</p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Datei:Abbildung_1_Abfrage_zum_Suchwort_%22toll%22_im_DWDS-Kernkorpus_des_20_Jh_%C3%BCber_das_Abfragesystem_des_DWDS_mit_Nutzung_des_Wortarten-Filters_(vgl_Geyken_2007,_Klein_%26_Geyken_2010).png&diff=737Datei:Abbildung 1 Abfrage zum Suchwort "toll" im DWDS-Kernkorpus des 20 Jh über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl Geyken 2007, Klein & Geyken 2010).png2015-07-22T08:21:19Z<p>Hoffmann: </p>
<hr />
<div></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien&diff=735Fallstudien2015-07-22T08:03:56Z<p>Hoffmann: </p>
<hr />
<div>Drei linguistische Forschungsbereiche dienen als Testbett für die im Rahmen des KobRA-Projekts zu erprobenden und zu entwickelnden Data-Mining-Verfahren. Zu allen drei Bereichen werden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:<br />
<br />
# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.<br />
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.<br />
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.<br />
<br />
Die folgende Übersicht listet die im KobRA-Projekt bislang durchgeführten und dokumentierten Fallstudien. Die Liste wird fortlaufend aktualisiert.<br />
<br />
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]<br />
*[[Klassifikation von Stützverben: bringen, kommen, finden]]<br />
*[[Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Fallstudien&diff=734Fallstudien2015-07-22T08:03:11Z<p>Hoffmann: </p>
<hr />
<div>Drei linguistische Forschungsbereiche dienen als Testbett für die im Rahmen des KobRA-Projekts zu erprobenden und zu entwickelnden Data-Mining-Verfahren. Zu allen drei Bereichen werden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:<br />
<br />
# '''Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung)'''. Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie ''zum''/''ins X bringen''/''kommen'' (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.<br />
# '''Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie)'''; Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.<br />
# '''Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik)'''. Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.<br />
<br />
Die folgende Übersicht listet die im KobRA-Projekt bislang durchgeführten und dokumentierten Fallstudien. Die Liste wird fortlaufend aktualisiert.<br />
<br />
*[[Disambiguierung von Suchtreffern: Leiter und zeitnah]]<br />
*[[Klassifikation von Stützverben: bringen, kommen, finden]]<br />
*[[Fallstudien_zum_Bedeutungswandel:_Automatische_Disambiguierung_und_Visualisierung_disambiguierter_lexikalischer_Einheiten]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=523Hauptseite2014-10-28T16:31:08Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|<br />
{|cellpadding="5" style="background:#ffffff" <br />
|- <br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|-<br />
|<br />
{|cellpadding="5" style="background:#ffffff" <br />
|- <br />
|* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''Liste der [[Publikationen|Publikationen]] und [[Präsentationen|Präsentationen]] mit Projektbezug'''<br />
|}<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|-<br />
|<br />
{|cellpadding="5" style="background:#ffffff" <br />
|- <br />
|<br />
*Bartz, Thomas; Radtke, Nadja (im Druck): '''Digitale Korpora in der Internet-Lexikographie. Bericht zur Sektion „Lexikographie“ der 2. Sektionentagung der Gesellschaft für Angewandte Linguistik (GAL e.V.) am 20. September 2013 an der RWTH Aachen''' In: Lexicographica 30/1, 603–608.<br />
<br />
*Bartz, Thomas; Radtke, Nadja (2014): '''Digitale Korpora im Deutschunterricht: Didaktisches Potenzial''' In: Zeitschrift für germanistische Linguistik 42/1, 130–143.<br />
<br />
*Bartz, Thomas; Beißwenger, Michael; Storrer, Angelika (2014): '''Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge.''' In: Journal for Language Technology and Computational Linguistics (Themenheft "Das STTS-Tagset für Wortartentagging - Stand und Perspektiven"). [http://www.jlcl.org/2013_Heft1/7Bartz.pdf PDF-Version]<br />
<br />
*Angelika Storrer (2014): '''Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde'''. In: Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013. [http://www.studiger.tu-dortmund.de/images/Storrer-ids2013.pdf PDF-Preprint]<br />
|}<br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=522Hauptseite2014-10-28T15:29:36Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|style="background:#ffffff" |KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|-<br />
|style="background:#ffffff" |<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''Liste der [[Publikationen|Publikationen]] und [[Präsentationen|Präsentationen]] mit Projektbezug'''<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|-<br />
|style="background:#ffffff" |<br />
*Bartz, Thomas; Radtke, Nadja (im Druck): '''Digitale Korpora in der Internet-Lexikographie. Bericht zur Sektion „Lexikographie“ der 2. Sektionentagung der Gesellschaft für Angewandte Linguistik (GAL e.V.) am 20. September 2013 an der RWTH Aachen''' In: Lexicographica 30/1, 603–608.<br />
<br />
*Bartz, Thomas; Radtke, Nadja (2014): '''Digitale Korpora im Deutschunterricht: Didaktisches Potenzial''' In: Zeitschrift für germanistische Linguistik 42/1, 130–143.<br />
<br />
*Bartz, Thomas; Beißwenger, Michael; Storrer, Angelika (2014): '''Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge.''' In: Journal for Language Technology and Computational Linguistics (Themenheft "Das STTS-Tagset für Wortartentagging - Stand und Perspektiven"). [http://www.jlcl.org/2013_Heft1/7Bartz.pdf PDF-Version]<br />
<br />
*Angelika Storrer (2014): '''Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde'''. In: Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013. [http://www.studiger.tu-dortmund.de/images/Storrer-ids2013.pdf PDF-Preprint]<br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=521Hauptseite2014-10-17T11:28:34Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|-<br />
|<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''Liste der [[Publikationen|Publikationen]] und [[Präsentationen|Präsentationen]] mit Projektbezug'''<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|-<br />
|<br />
*Bartz, Thomas; Radtke, Nadja (im Druck): '''Digitale Korpora in der Internet-Lexikographie. Bericht zur Sektion „Lexikographie“ der 2. Sektionentagung der Gesellschaft für Angewandte Linguistik (GAL e.V.) am 20. September 2013 an der RWTH Aachen''' In: Lexicographica 30/1, 603–608.<br />
<br />
*Bartz, Thomas; Radtke, Nadja (2014): '''Digitale Korpora im Deutschunterricht: Didaktisches Potenzial''' In: Zeitschrift für germanistische Linguistik 42/1, 130–143.<br />
<br />
*Bartz, Thomas; Beißwenger, Michael; Storrer, Angelika (2014): '''Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge.''' In: Journal for Language Technology and Computational Linguistics (Themenheft "Das STTS-Tagset für Wortartentagging - Stand und Perspektiven"). [http://www.jlcl.org/2013_Heft1/7Bartz.pdf PDF-Version]<br />
<br />
*Angelika Storrer (2014): '''Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde'''. In: Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013. [http://www.studiger.tu-dortmund.de/images/Storrer-ids2013.pdf PDF-Preprint]<br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=520Hauptseite2014-10-17T11:25:55Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|-<br />
|<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''Liste der [[Publikationen|Publikationen]] und [[Präsentationen|Präsentationen]] mit Projektbezug'''<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=519Hauptseite2014-10-17T11:25:25Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|-<br />
|<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''[[Liste der Publikationen|Publikationen und Präsentationen|Präsentationen mit Projektbezug]]'''<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=518Hauptseite2014-10-17T11:23:58Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|-<br />
|<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''[[Publikationen und Präsentationen|Liste der Publikationen und Präsentationen mit Projektbezug]]'''<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Aktivit%C3%A4ten&diff=517Aktivitäten2014-10-17T11:19:17Z<p>Hoffmann: </p>
<hr />
<div>Aktivitäten des KobRA-Projekts (aufsteigend chronologisch):<br />
__FORCETOC__<br />
<table width="730" border="0"><tr><td><br />
<br />
==DH 2014, 7.-12. Juni 2014 (Lausanne)==<br />
<br />
Nach einem erfolgreich eingereichten Paper zu Ergebnissen aus dem [[Projektbeschreibung/Anwendungsfelder|Anwendungsfeld Lexikographie]] war das KobRA-Projekt auch auf der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', [http://dh2014.org/ ''Digital Humanities''], in Lausanne präsent. Im Rahmen einer Posterpräsentation konnten wir in einen erkenntnisreichen Austausch mit Vertretern verwandter Projekte treten und interessante neue Kontakte knüpfen.<br />
<br />
*Beitrag: "Neue Möglichkeiten der Arbeit mit strukturierten Sprachressourcen in den Digital Humanities mithilfe von Data-Mining." Posterpräsentation im Rahmen der [http://dh2014.org/ ''Digital Humanities 2014'' in Lausanne] (Thomas Bartz, Michael Beißwenger, Christian Pölitz, Nadja Radtke, Angelika Storrer)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==LaTeCH 2013, 26. April 2013 (Göteborg)==<br />
<br />
Die im Rahmen der Fallstudien im [[Projektbeschreibung/Anwendungsfelder|Anwendungsfeld Lexikographie]] bislang angewandten Verfahren wurden in einem Vortrag beim [http://sighum.science.ru.nl/latech2014/index.html 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)''] vorgestellt. Der Workshop fand in Verbindung mit der [http://eacl2014.org/ 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)''] statt.<br />
<br />
* Beitrag: "Enhancing the possibilities of corpus-based investigations: Word sense disambiguation on query results of large text corpora." Vortrag beim [http://sighum.science.ru.nl/latech2014/index.html 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)''] im Rahmen der [http://eacl2014.org/ 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)''] (Christian Pölitz, Thomas Bartz)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==DHd 2014, 25.-28. März 2014 (Passau)==<br />
<br />
Das KobRA-Projekt war mit einer Posterpräsentation und einem Kurzvortrag im Rahmen des Poster-Slams bei der [http://www.dhd2014.uni-passau.de/ ersten Jahrestagung des Verbands ''Digital Humanities im deutschsprachigen Raum (DHd)'' in Passau] vertreten. Vorgestellt wurden Projektergebnisse aus dem [[Projektbeschreibung/Anwendungsfelder|Anwendungsfeld Lexikographie]], die in Zusammenarbeit mit dem Projektpartner an der Berlin-Brandenburgischen Akademie der Wissenschaften erzielt wurden.<br />
<br />
* Beitrag: "Disambiguierung in Suchtrefferlisten aus großen Textkorpora: Anwendungsfelder und Perspektiven." Kurzvortrag und Posterpräsentation im Rahmen der [http://www.dhd2014.uni-passau.de/ ersten Jahrestagung des Verbands ''Digital Humanities im deutschsprachigen Raum (DHd)'' in Passau] (Thomas Bartz, Alexander Geyken, Christian Pölitz, Achim Saupe, Angelika Storrer)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
=="Social Media Corpora for the eHumanities", Februar 2014 (Dortmund)==<br />
<br />
Im Februar 2014 fand an der TU Dortmund die Abschlusstagung des DFG-Netzwerks ''[http://www.empirikom.net Empirische Erforschung internetbasierter Kommunikation (Empirikom)]'' statt. In die Tagung integriert war das zweite offizielle Arbeitstreffen der [http://www.tei-c.org/Activities/SIG/CMC/ Special Interest Group "Computer-Mediated Communication"] der ''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]'', an dem mit Michael Beißwenger, Lothar Lemnitzer, Angelika Storrer und Andreas Witt KobRA-Vertreter aus Dortmund, Berlin und Mannheim mit Beiträgen beteiligt waren. Vorgestellt und diskutiert wurde u.a. der Entwurf zu einem Basisschema für die TEI-Repräsentation von Korpora internetbasierter Kommunikation (IBK), das geeignet ist, nicht nur Korpora zu rein schriftbasierten IBK-Genres, sondern auch Korpora mit Sprachdaten aus multimodalen Kommunikationsumgebungen zu repräsentieren.<br />
<br />
Darüber hinaus stellten Thomas Bartz, Michael Beißwenger und Angelika Storrer in Verbindung mit Swantje Westpfahl (IDS Mannheim) Erweiterungen zum "Stuttgart-Tübingen-Tagset" für das POS-Tagging deutscher Sprachdaten vor, die auf die Behandlung von Phänomenen in Sprachdaten internetbasierter Kommunikation abgestimmt sind und die auch in den Arbeiten in KobRA Verwendung finden werden. Ein Beitrag von Angelika Storrer zur Modellierung von Phänomenen "nichtstandardisierter" Schriftlichkeit bei der Sprachverwendung in sozialen Medien lieferte dazu einen theoretischen Beschreibungsrahmen.<br />
<br />
Die Tagungsbeiträge mit KobRA-Bezug im Einzelnen:<br />
* "A Basic Schema for Modeling Computer-Mediated Communication in TEI" (Michael Beißwenger, Maria Ermakova, Thierry Chanier, Kun Jin, Lothar Lemnitzer und Angelika Storrer)<br />
* "General Requirements and Issues in Defining a TEI Schema for the Representation of Computer-Mediated Communication" (Michael Beißwenger)<br />
* "Relations and Options for Cooperation between the SIG 'TEI for Linguists' and the SIG 'Computer-Mediated Communication'" (Andreas Witt)<br />
* "Ein erweitertes STTS-Tagset für die POS-Annotation von Korpora gesprochener Sprache und von Korpora internetbasierter Kommunikation" (Thomas Bartz, Michael Beißwenger, Angelika Storrer und Swantje Westpfahl)<br />
* "Was ist eigentlich der Standard? Varietätenlinguistische Überlegungen zur Einordnung von interaktionsorientierter Schriftlichkeit als 'non-standard', 'standardfern' etc. (Angelika Storrer)<br />
* "Vorbereitung einer Shared Task zur automatischen linguistischen Annotation von Sprachdaten aus Genres internetbasierter Kommunikation: Werkstattbericht" (Michael Beißwenger, Sabine Bartsch, Stefan Evert und Kay-Michael Würzner)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==TEI 2013, 2.-5. Oktober 2013 (Rom)==<br />
<br />
Mit der Ausrichtung eines Panels sowie eines Arbeitstreffens der neu gegründeten Special Interest Group (SIG) "Computer-Mediated Communication" war KobRA (vertreten durch Thomas Bartz, Michael Beißwenger und Angelika Storrer) an der diesjährigen [http://digilab2.let.uniroma1.it/teiconf2013/ Konferenz der ''Text Encoding Inidiative'' (TEI) in Rom] beteiligt.<br />
<br />
Gemeinsam mit Kooperationspartnern aus Deutschland, Frankreich, Italien und den Niederlanden wurden aktuelle Arbeiten zur Standardisierung von Schemata für die linguistische Annotation von Sprachdaten aus Genres internetbasierter Kommunikation präsentiert. Im Rahmen des von Michael Beißwenger & Lothar Lemnitzer organisierten Panels wurde anhand von Daten aus Korpus- und Forschungsprojekten zu verschiedenen europäischen Sprachen (für das Deutsche: Daten aus DeRiK und KobRA) ein Umriss sprachlicher und struktureller Besonderheiten internetbasierter Kommunikation präsentiert und wurden Herausforderungen und Möglichkeiten der automatischen und standardisierten Annotation solcher Phänomene in Korpora diskutiert.<br />
<br />
Im Rahmen der von Michael Beißwenger koordinierten SIG wurden Schnittstellen zwischen laufenden Arbeiten in KobRA und DeRiK und vergleichbaren Arbeiten in Projekten zu anderen Sprachen identifiziert und Kooperationen in Hinblick auf die Erarbeitung von Lösungen für die automatische Annotation relevanter Phänomene vereinbart. Die Ergebnisse des Panels, der SIG und der vereinbarten Kooperationen fließen in die weitere Projektarbeit im [[Projektbeschreibung/Anwendungsfelder|Anwendungsfeld Varietätenlinguistik/Internetbasierte Kommunikation]] ein.<br />
<br />
Die Konferenzbeiträge mit KobRA-Bezug im Einzelnen:<br />
<br />
*Three-Paper Panel: [http://wiki.tei-c.org/images/8/85/Teicmcpanel2013expose.pdf Computer-Mediated Communication in TEI: What Lies Ahead] (organisiert von Michael Beißwenger & Lothar Lemnitzer mit Beiträgen von Michael Beißwenger, Thierry Chanier, Isabella Chiari, Maria Ermakova, Maarten van Gompel, Iris Hendrickx, Axel Herold, Henk van den Heuvel und Angelika Storrer)<br />
*Arbeitstreffen der [http://www.tei-c.org/Activities/SIG/CMC/ SIG "Computer-Mediated Communication"] (organisiert von Michael Beißwenger mit Beiträgen von Thomas Bartz, Angelika Storrer, Thierry Chanier, Isabella Chiari, Maria Ermakova und Iris Hendrickx)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==GSCL 2013, 23.-27. September 2013 (Darmstadt)==<br />
<br />
Mit mehreren Einzelbeiträgen sowie der Ausrichtung eines Workshops haben VertreterInnen des KobRA-Projekts auf der [http://gscl2013.ukp.informatik.tu-darmstadt.de/ International Conference of the German Society for Computational Linguistics and Language Technology (GSCL) 2013] laufende Arbeiten zur automatischen Analyse von Sprachdaten aus Genres internetbasierter Kommunikation und zur Nutzung von Informatikmethoden für die korpusgestützte Sprachanalyse präsentiert. Die Ergebnisse der Diskussionen im Rahmen des Workshops, der Postersession und des Kurzpaper-Format "GSCL-Kaleidoskop" fließen in die weitere Projektarbeit im [[Projektbeschreibung/Anwendungsfelder|Anwendungsfeld Varietätenlinguistik/Internetbasierte Kommunikation]] ein.<br />
<br />
Die Konferenzbeiträge mit KobRA-Bezug im Einzelnen:<br />
*Workshop: [http://empirikom.net/bin/view/Aktivitaeten/GsclWorkshop Verarbeitung und Annotation von Sprachdaten aus Genres internetbasierter Kommunikation] (organisiert von Michael Beißwenger und Angelika Storrer in Verbindung mit Anke Lüdeling (Berlin) und dem [http://www.empirikom.net DFG-Netzwerk Empirikom])<br />
*"Vorbereitung einer Shared Task zur Verarbeitung von Sprachdaten aus Genres internetbasierter Kommunikation / Preparing a Shared Task on Linguistic Annotation of Computer-Mediated Communication." Vortrag und Posterpräsentation im Rahmen des ''GSCL-Kaleidoskop'' (Michael Beißwenger in Kooperation mit Stefan Evert, Kay-Michael Würzner und Sabine Bartsch)<br />
* "Domain Adaptation in Corpus Linguistics." Vortrag im Rahmen des ''GSCL-Kaleidoskop'' (Christian Pölitz)<br />
* "Modifikation und Erweiterung von STTS für die Annotation von Gesprächskorpora und von Korpora zu Genres internetbasierter Kommunikation." Vortrag im Rahmen des ''GSCL-Kaleidoskop'' (Thomas Bartz, Michael Beißwenger und Angelika Storrer in Verbindung mit Ines Rehbein, Thomas Schmidt und Swantje Westpfahl)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==GAL 2013, 19./20. September 2013 (Aachen)==<br />
<br />
Auf der [http://www.gal2013.ifaar.rwth-aachen.de 2. Sektionentagung der Gesellschaft für Angewandte Linguistik e.V. (GAL 2013)] haben die Dortmunder Projektmitarbeiter Thomas Bartz, Nadja Radtke und Christian Pölitz erste Ergebnisse der KobRA-Projektarbeiten zu den Aufgabenbereichen Klassifikation und Disambiguierung von Treffern bzw. Trefferlisten vorgestellt. Ausgangspunkt für den gemeinsamen Vortrag sind die Arbeiten im [[Projektbeschreibung/Anwendungsfelder|Anwendungsfeld Lexikographie]], in die auch Ergebnisse und Anregungen aus der Sektionsarbeit unmittelbar einfließen.<br />
<br />
Angaben zum Vortrag:<br />
* "Bereinigen, Disambiguieren, Visualisieren: Möglichkeiten der Unterstützung der korpusbasierten Lexikographie durch Data-Mining-Verfahren." Sektion "Lexikographie" der [http://www.gal2013.ifaar.rwth-aachen.de 2. Sektionentagung der Gesellschaft für Angewandte Linguistik e.V. (GAL 2013)] (Thomas Bartz, Nadja Radtke & Christian Pölitz)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==IDT 2013, 29. Juli bis 3. August 2013 (Bozen)==<br />
<br />
Mit zwei Einzelvorträgen und einem Posterstand haben Nadja Radtke und Thomas Bartz KobRA auf der [http://www.idt-2013.it XV. Internationalen Tagung der Deutschlehrerinnen und Deutschlehrer (IDT 2013)] in Bozen vertreten und potenzielle Anwender aus den Bereichen Schule und Lehrerbildung als Multiplikatoren für die Aufgaben und Lösungen des Projekts gewinnen können.<br />
<br />
In ihrem Vortrag in der Sektion "Wortschatz und Phraseologie" zeigte Nadja Radtke typische Bereinigungs- und Klassifikationsaufgaben, die sich beim korpus-basierten Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen im Rahmen ihres Dissertationsprojektes gestellt haben, und für die KobRA-Lösungen entwickelt werden.<br />
<br />
Thomas Bartz stellte in seinem Vortrag in der Sektion "Korpora im Sprachunterricht" Möglichkeiten und Grenzen des Einsatzes aktuell existierender digitaler Sprachressourcen im Deutschunterricht sowie zu erwartende Verbesserungen durch KobRA-Lösungen vor.<br />
<br />
Nadja Radtke und Thomas Bartz präsentierten im Rahmen einer sektionsübergreifenden Posterpräsentation Möglichkeiten der Nutzung deutschsprachiger Onlinekorpora im Unterricht und neue Potenziale für diesen Anwendungsbereich, die sich durch die KobRA-Projektarbeiten ergeben.<br />
<br />
Der direkte Kontakt zu Nutzern von Korpora und Sprachressourcen in Lehr-/Lernkontexten brachte wichtige Anregungen insbesondere für die [[Projektbeschreibung/Anwendungsfelder|Anwendungsfelder Lexikographie und Diachronische Sprachforschung]].<br />
<br />
Die Konferenzbeiträge mit KobRA-Bezug im Einzelnen:<br />
*"Konzeption und korpusbasierter Aufbau einer Wiki-Ressource zu deutschen Stützverbgefügen." Vortrag im Rahmen der Sektion "Wortschatz und Phraseologie" (Nadja Radtke)<br />
* "Digitale Sprachressourcen im Deutschunterricht: Korpus-basierte Recherche und Analyse in der "Wörterbuchwerkstatt"." Vortrag im Rahmen der Sektion "Korpora im Sprachunterricht" (Thomas Bartz)<br />
* "Nutzung deutschsprachiger Onlinekorpora im Unterricht." Ausgewählter Beitrag der Sektion "Korpora im Sprachunterricht" für die sektionsübergreifende Posterpräsentation "Agorá" (Thomas Bartz & Nadja Radtke)<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==Zweiter Projekt-Workshop am 18./19. April 2013 (Dortmund)==<br />
<br />
Am 18./19.04.2013 fand an der TU Dortmund das zweite Arbeitstreffen des Projekts statt. Neben einer Einführung in RapidMiner, die von [http://www-ai.cs.uni-dortmund.de/PERSONAL/morik.html Prof. Dr. Katharina Morik] angeboten wurde, standen dabei auch die Werkstattberichte der Projektpartner sowie die Dortmunder Werkstattberichte auf dem Programm. Das Ziel des zweiten Arbeitstreffens war u.a. das Verabschieden der Aufgabenliste sowie das Festlegen des Meilensteins 1.<br />
<br />
*'''[[Dokumentation: 2. Projekt-Workshop (April 2013)|Programmübersicht]]'''<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==Kick-off-Treffen der BMBF-Projektverbünde, 8./9. April 2013 (Leipzig)==<br />
<br />
Am 8./9. April 2013 fand an der Universität Leipzig das Kick-off-Treffen der 24 Projektverbünde statt, die im Rahmen des ´'''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' vom BMBF gefördert werden. Bei diesem Treffen wurde KobRA - wie auch die anderen 24 Projekte - im Rahmen einer Posterpräsentation vorgestellt.<br />
<br />
*'''[[Media:Kobra-poster-leipzig-final-2.pdf|KobRA-Poster (PDF)]]'''<br />
*'''[[Media:Projektbeschreibung-KobRA-final.pdf|Projektbeschreibung als Teil der Tagungsunterlagen (PDF)]]<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
<br />
==Kick-off-Meeting der KobRA-Partner am 15./16. November 2012 (Dortmund)==<br />
<br />
Am 15./16.11.2012 fand im Erich-Brost-Haus der TU Dortmund das erste Arbeitstreffen des Projekts statt. Neben einem Überblick über Ziele und Fragestellungen sowie einer Vorstellung von Ressourcen und Verfahren in KobRA standen dabei auch Vorträge eingeladener Gastwissenschaftler auf dem Programm.<br />
<br />
*'''[[Dokumentation: Kick-off-Meeting (November 2012)|Zur Dokumentation der Vorträge und Präsentationen]]'''<br />
<br />
[[Bild:Kobrabar.jpg|verweis=Aktivitäten]]<br />
</td></tr></table></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Aktivit%C3%A4tenAlt&diff=516AktivitätenAlt2014-10-17T11:19:10Z<p>Hoffmann: </p>
<hr />
<div><table width="860" border="0" cellspacing="10"><tr><td valign="top"><br />
<table width="600" border="0"><tr><td><br />
[[Bild:Kobrabar1-600.jpg|verweis=Aktivitäten]]<br />
<br />
<br />
<big>'''''KobRA'' (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)'''</big><br/>ist ein Verbundprojekt, das seit September 2012 vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen <u>'''[[Projektbeschreibung|Überblick über die Ziele, Fragestellungen und Methoden]]'''</u>, über die <u>'''[[Projektbeteiligte|beteiligten Personen und Forschungseinrichtungen]]'''</u> sowie über <u>'''[[Aktivitäten|Aktivitäten]]'''</u> und <u>'''[[Publikationen und Präsentationen|aktuelle Veröffentlichungen]]'''</u>.<br />
<br />
<br />
<br />
[[Bild:Kobrabar1-600.jpg|verweis=Aktivitäten]]<br />
<br />
<br />
<br />
Sitemap:<br />
<br />
*'''[[Projektbeteiligte]]:''' Forschungseinrichtungen, Projektleitung, Projektmitarbeiter und Ansprechpartner<br />
*'''[[Projektbeschreibung]]:''' Ziele, Anwendungsfelder, Methoden und Ressourcen des Projekts<br />
*'''[[Publikationen und Präsentationen]]:''' Veröffentlichungen und Vorträge mit Bezug zu den Projektarbeiten<br />
*'''[[Kooperationen]]:''' Kooperationspartner und Vernetzung<br />
*'''[[Aktivitäten]]:''' Workshops und Veranstaltungen des Projekts und des Projektverbundes<br />
<br />
<br />
[[Bild:Kobrabar1-600.jpg|verweis=Aktivitäten]]<br />
</td></tr></table><br />
</td><td valign="top"><br />
<table width="250" border="0"><tr><td><br />
[[Bild:Kobrabar3.jpg|verweis=Aktivitäten]]<br />
<br />
<br />
<big>'''Aus der Werkstatt:'''</big><br />
<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''[[Publikationen und Präsentationen|Liste der Publikationen und Präsentationen mit Projektbezug]]'''<br />
<br />
<br />
[[Bild:Kobrabar3.jpg|verweis=Aktivitäten]]<br />
</td></tr></table><br />
</td></tr></table></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=515Hauptseite2014-10-15T08:47:08Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="99%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|}<br />
<br />
{| class="wikitable" width="49%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=514Hauptseite2014-10-15T08:46:31Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable" width="100%"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
|}<br />
<br />
{| class="wikitable" width="45%" style="float:left; margin-right:1em"<br />
|- class="hintergrundfarbe6"<br />
! <big>Aktivitäten</big><br />
|}<br />
<br />
{| class="wikitable" width="45%" style="float:left"<br />
|- class="hintergrundfarbe6"<br />
! <big>Veröffentlichungen</big><br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=513Hauptseite2014-10-15T08:38:19Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable"<br />
|- class="hintergrundfarbe6"<br />
! <big>Herzlich willkommen</big><br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
<br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=512Hauptseite2014-10-15T08:36:38Z<p>Hoffmann: </p>
<hr />
<div>{| class="wikitable"<br />
|- class="hintergrundfarbe6"<br />
! Herzlich willkommen<br />
|-<br />
|KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|800px|KobRA]]<br />
<br />
|}</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=511Hauptseite2014-10-15T08:10:19Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=510Hauptseite2014-10-15T08:08:27Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[:Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=509Hauptseite2014-10-15T08:05:49Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[Kategorie:Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=508Hauptseite2014-10-15T08:05:23Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
* [[Team|die beteiligten Personen und Forschungseinrichtungen]]<br />
* [[Fallstudien|die Fallstudien des Projekts]]<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=507Hauptseite2014-10-15T08:04:30Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[Projektbeschreibung|die Ziele, Fragestellungen und Methoden des Projekts]]<br />
(Projektbbeschreibung [verlinken]),<br />
* die beteiligten Personen und Forschungseinrichtungen (Team [verlinken]),<br />
* die Fallstudien des Projekts (Fallstudien [verlinken])<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=506Hauptseite2014-10-15T08:03:56Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
* [[die Ziele, Fragestellungen und Methoden des Projekts|Projektbeschreibung ]]<br />
(Projektbbeschreibung [verlinken]),<br />
* die beteiligten Personen und Forschungseinrichtungen (Team [verlinken]),<br />
* die Fallstudien des Projekts (Fallstudien [verlinken])<br />
* sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Aktivit%C3%A4ten&diff=505Aktivitäten2014-10-15T08:03:01Z<p>Hoffmann: </p>
<hr />
<div><table width="860" border="0" cellspacing="10"><tr><td valign="top"><br />
<table width="600" border="0"><tr><td><br />
[[Bild:Kobrabar1-600.jpg|verweis=Aktivitäten]]<br />
<br />
<br />
<big>'''''KobRA'' (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)'''</big><br/>ist ein Verbundprojekt, das seit September 2012 vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wird.<br />
<br />
Auf diesen Seiten bieten wir einen <u>'''[[Projektbeschreibung|Überblick über die Ziele, Fragestellungen und Methoden]]'''</u>, über die <u>'''[[Projektbeteiligte|beteiligten Personen und Forschungseinrichtungen]]'''</u> sowie über <u>'''[[Aktivitäten|Aktivitäten]]'''</u> und <u>'''[[Publikationen und Präsentationen|aktuelle Veröffentlichungen]]'''</u>.<br />
<br />
<br />
<br />
[[Bild:Kobrabar1-600.jpg|verweis=Aktivitäten]]<br />
<br />
<br />
<br />
Sitemap:<br />
<br />
*'''[[Projektbeteiligte]]:''' Forschungseinrichtungen, Projektleitung, Projektmitarbeiter und Ansprechpartner<br />
*'''[[Projektbeschreibung]]:''' Ziele, Anwendungsfelder, Methoden und Ressourcen des Projekts<br />
*'''[[Publikationen und Präsentationen]]:''' Veröffentlichungen und Vorträge mit Bezug zu den Projektarbeiten<br />
*'''[[Kooperationen]]:''' Kooperationspartner und Vernetzung<br />
*'''[[Aktivitäten]]:''' Workshops und Veranstaltungen des Projekts und des Projektverbundes<br />
<br />
<br />
[[Bild:Kobrabar1-600.jpg|verweis=Aktivitäten]]<br />
</td></tr></table><br />
</td><td valign="top"><br />
<table width="250" border="0"><tr><td><br />
[[Bild:Kobrabar3.jpg|verweis=Aktivitäten]]<br />
<br />
<br />
<big>'''Aus der Werkstatt:'''</big><br />
<br />
* [[Aktivitäten#DH_2014.2C_7.-12._Juni_2014_.28Lausanne.29|Erkenntnisreicher Austausch bei Posterpräsentation im Rahmen der internationalen Jahreskonferenz der ''Alliance of Digital Humanities Organizations'', ''Digital Humanities 2014'', in Lausanne]]<br />
<br />
* [[Aktivitäten#LaTeCH_2013.2C_26._April_2013_.28G.C3.B6teborg.29|Vortrag zu bislang angewendeten Verfahren im Anwendungsfeld Lexikographie beim 8. Workshop ''Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2014)'' im Rahmen der 14. Jahrestagung des ''European Chapter of the Association for Computational Linguistics (EACL 2014)'']]<br />
<br />
* [[Aktivitäten#DHd_2014.2C_25.-28._M.C3.A4rz_2014_.28Passau.29|Kurzvortrag und Poster mit Projektergebnissen für die erste Jahreskonferenz der ''Digital Humanities im deutschsprachigen Raum 2014'' in Passau]]<br />
<br />
Überblick über Konferenzbeiträge und Projekt-Workshops: s. '''[[Aktivitäten|Aktivitäten]]'''<br />
<br />
'''[[Publikationen und Präsentationen|Liste der Publikationen und Präsentationen mit Projektbezug]]'''<br />
<br />
<br />
[[Bild:Kobrabar3.jpg|verweis=Aktivitäten]]<br />
</td></tr></table><br />
</td></tr></table></div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=504Hauptseite2014-10-15T08:01:08Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
<br />
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining) <br />
ist ein Verbundprojekt, das seit September 2012 vom Bundesministerium <br />
für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung <br />
von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities <br />
gefördert wird.<br />
Auf diesen Seiten bieten wir einen Überblick über:<br />
- die Ziele, Fragestellungen und Methoden des Projekts <br />
(Projektbbeschreibung [verlinken]),<br />
- die beteiligten Personen und Forschungseinrichtungen (Team [verlinken]),<br />
- die Fallstudien des Projekts (Fallstudien [verlinken])<br />
- sowie über Aktivitäten und aktuelle Veröffentlichungen (s.u.).<br />
<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmannhttp://kobra.tu-dortmund.de/mediawiki/index.php?title=Hauptseite&diff=503Hauptseite2014-10-15T08:00:23Z<p>Hoffmann: </p>
<hr />
<div>=Herzlich willkommen=<br />
<br />
[[Bild:KobRA-RM.jpg|verweis=Hauptseite]]<br />
[[Datei:KobRA-RM.jpg|730px|thumb|left|KobRA]]<br />
[[Datei:KobRA-RM.jpg]]</div>Hoffmann