Disambiguierung von Suchtreffern: Leiter und zeitnah: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(2.2 Datenaufbereitung)
(2.2 Datenaufbereitung)
Zeile 41: Zeile 41:
  
 
[[Datei:Abb 1 MS1b.jpg|mini|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten.]]
 
[[Datei:Abb 1 MS1b.jpg|mini|links|Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten.]]
 +
 +
[[Datei:Tabellen 2u3 MS1b.jpg|mini|links|Tabellen 2 und 3]]

Version vom 11. August 2014, 11:00 Uhr


1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern Leiter und zeitnah erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

Der Leiter und die Leiter sind Homonyme mit den möglichen weiteren Bedeutungen Energieleiter und Tonleiter, wobei der Leiter mit Lehnwörtern wie Boss oder Chef konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob der Leiter in der Bedeutung Boss/Chef im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

Zeitnah, ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung zeitgenössisch/zeitkritisch gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung unverzüglich/prompt. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere Leiter stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

2. Datengrundlage und linguistische Vorarbeiten

2.1 Datenerhebung

Die in den Experimenten genutzten Daten stammen aus dem Kernkorpus des 20. Jahrhunderts des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (s. 1). Für das in diesem Korpus weniger frequente zeitnah wurden zusätzlich die Vorkommen im ZEIT-Korpus des DWDS (Details s. Klein/Geyken 2010) erhoben. Das ZEIT-Korpus besteht aus den Ausgaben der Wochenzeitung die Zeit von 1946 bis 2009. Es handelt sich dabei also um ein reines Zeitungskorpus.

Die Datenerhebung fand am 6.6.2013 statt. Die Daten sind teilweise urheberrechtlich geschützt, standen aber für die Auswertungen im Projekt vollständig zur Verfügung. Tabelle 1 vermittelt einen Überblick über die für die Experimente verwendeten Datenbestände.

Wort Kernkorpus des 20. Jh. (DWDS) ZEIT-Korpus (DWDS) Gesamt
Leiter 7.032 0 7.032
zeitnah 37 251 288

Tabelle 1: Berücksichtigte Treffer der untersuchten Wörter Leiter und zeitnah im DWDS-Kernkorpus des 20. Jh. und im ZEIT-Korpus des DWDS

2.2 Datenaufbereitung

Die vom Korpusrecherchesystem ausgegebenen Textsegmente, die wir im Folgenden als ‚Treffer-Snippets‘ bezeichnen, wurden in Excel-Dateien bearbeitet. Wie der Ausschnitt in Abbildung 1 zeigt, belegt jedes Treffer-Snippet eine Tabellenzeile. Im Snippet ist das gesuchte Wort durch festgelegte Sonderzeichen hervorgehoben (z.B.: „eine zerbrochene &&Leiter&&“). Die Snippets umfassen jeweils drei Sätze. Die Metadaten zu den Snippets (Erscheinungsdatum, Textsorte etc.) sind in jeweils separaten Spalten vermerkt.

Mit Blick auf die geplante Evaluation der für die Disambiguierung entwickelten bzw. angepassten Data-Mining-Verfahren (s. 4) wurde für Leiter eine Zufallsstichprobe von 2.000 Treffer-Snippets, für zeitnah der gesamte Datenbestand (288 Treffer) manuell disambiguiert. Dazu erhielten zwei Hilfskräfte unabhängig von einander jeweils die Aufgabe, für die vorgelegten Vorkommen von Leiter und zeitnah jeweils die Bedeutung zu bestimmen, in der diese Wörter verwendet werden. Auf Basis der Bedeutungsdifferenzierung im Duden-Universalwörterbuch (Duden 2011) wurden die zu bestimmenden Bedeutungen beschrieben, durch jeweils einen passenden Korpusbeleg illustriert und den Annotatoren schließlich an die Hand gegeben. Durch dieses Vorgehen wurde ein sehr hohes Inter-Annotator-Agreement zwischen den beteiligten Hilfskräften erreicht (s. Tabellen 2 und 3).

Abbildung 1: Excel-Tabelle mit importierten Treffer-Snippets aus dem DWDS-Kernkorpus des 20. Jh. für Leiter, Hervorhebung durch festgelegte Sonderzeichen („&&“); Metadaten und manuelle Disambiguierung in separaten Spalten.
Tabellen 2 und 3