Disambiguierung von Suchtreffern: Leiter und zeitnah: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „Kategorie:Fallstudien“)
 
Zeile 1: Zeile 1:
 
[[Kategorie:Fallstudien]]
 
[[Kategorie:Fallstudien]]
 +
 +
== 1. Problemstellung und Projektkontext ==
 +
 +
Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.
 +
 +
In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.
 +
 +
Für diese Fallstudie haben wir Trefferlisten zu den Wörtern ''Leiter'' und ''zeitnah'' erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:
 +
 +
‒ ''Der Leiter'' und ''die Leiter'' sind Homonyme mit den möglichen weiteren Bedeutungen ''Energieleiter'' und ''Tonleiter'', wobei ''der Leiter'' mit Lehnwörtern wie ''Boss'' oder ''Chef'' konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob ''der Leiter'' in der Bedeutung ''Boss/Chef'' im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.
 +
 +
‒ ''Zeitnah'', ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung ''zeitgenössisch/zeitkritisch'' gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung ''unverzüglich/prompt''. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.
 +
 +
Zudem ist insbesondere ''Leiter'' stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.
 +
 +
Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).

Version vom 11. August 2014, 08:59 Uhr


1. Problemstellung und Projektkontext

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die Verfahren werden an linguistischen Fallstudien erprobt, die an konkrete Forschungsprojekte angebunden sind. Die in diesem Report dokumentierte Fallstudie bearbeitet einen lange bekannten, aber bislang nicht zufriedenstellend gelösten Problemtyp bei der Arbeit mit großen digitalen Textkorpora: Ein Wort, dessen Gebrauch empirisch-quantitativ untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind (z.B. weil nur bestimmte Bedeutungen relevant sind, oder die Vorkommen verschiedener Bedeutungen eines Wortes verglichen werden sollen), was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Gesucht werden deshalb Data-Mining-Verfahren, die den Linguisten dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

In einer ersten Fallstudie zeigen wir im Folgenden exemplarisch an zwei ausgewählten Wörtern Herausforderungen und Nutzen möglicher Data-Mining-Verfahren für diese Disambiguierungsaufgabe aus der Perspektive der korpusbasierten lexikographischen Sprachbeschreibung. Für die lexikographische Beschreibung von Stichwörtern in Wörterbüchern, anderen (digitalen) lexikalischen Ressourcen oder sprachwissenschaftlichen Studien zur Wortschatz- und Bedeutungsentwicklung werden schon seit langem Korpora genutzt (vgl. Engelberg & Lemnitzer 2009). In einem digitalen Referenzkorpus wie dem Kernkorpus des Projekts ‚Digitales Wörterbuch der deutschen Sprache (DWDS)‘ (vgl. Geyken 2007), das im Hinblick auf die Verteilung der enthaltenen Textbestände auf die Textsortenbereiche Belletristik, Gebrauchsliteratur, Wissenschaft und journalistische Prosa sowie auf die Dekaden des 20. Jahrhunderts ausgewogen ist, können Lexikographen zu einem Suchwort automatisch Daten zur Frequenzentwicklung über das 20. Jahrhundert hinweg gewinnen und die Gebräuchlichkeit des Wortes in verschiedenen Textsortenbereichen vergleichen. Wenn man allerdings Aussagen zur Textsortenspezifik und zur Bedeutungsentwicklung verschiedener oder einer speziellen Wortbedeutung treffen möchte, müssen die vom System ausgegebenen Trefferlisten bei Wörtern mit mehreren Bedeutungen (Polyseme oder Homonyme) bislang manuell disambiguiert werden.

Für diese Fallstudie haben wir Trefferlisten zu den Wörtern Leiter und zeitnah erhoben. Beide Wörter versprechen interessante Einblicke in Prozesse des Sprachwandels und der Bedeu-tungsentwicklung:

Der Leiter und die Leiter sind Homonyme mit den möglichen weiteren Bedeutungen Energieleiter und Tonleiter, wobei der Leiter mit Lehnwörtern wie Boss oder Chef konkurriert. Aus linguistischer Sicht wäre beispielsweise eine Untersuchung zur Frage, ob der Leiter in der Bedeutung Boss/Chef im aktuellen Sprachgebrauch durch die genannten Lehnwörter verdrängt wird, sehr reizvoll.

Zeitnah, ein Polysem, das bis ins 20. Jahrhundert hinein v.a. in der Bedeutung zeitgenössisch/zeitkritisch gebräuchlich war, scheint in der zweiten Hälfte des 20. Jahrhunderts eine bemerkenswerte Bedeutungsentwicklung durchlaufen zu haben und findet sich heute am häufigsten in der Bedeutung unverzüglich/prompt. Zu untersuchen, wann diese Entwicklung genau eingesetzt hat, welche Verwendungsdomänen sie zuerst bzw. überhaupt betrifft und inwiefern die erste Bedeutung heute noch gebräuchlich ist, stellt ebenfalls ein reizvolles Desiderat für die linguistische lexikographische Sprachbeschreibung dar.

Zudem ist insbesondere Leiter stark frequent. Im DWDS-Kernkorpus des 20. Jahrhunderts finden sich beispielsweise insgesamt 7.032 Treffer (Stand: 6.6.2013). Für diese Trefferzahl ist eine manuelle Disambiguierung kaum mit vertretbarem zeitlichem Aufwand möglich.

Der Report ist folgendermaßen aufgebaut: Im folgenden Abschnitt 2 beschreiben wir zunächst die verwendete Datengrundlage und die linguistischen Vorarbeiten, die in die Data-Mining-Experimente eingeflossen sind. Abschnitt 3 erläutert das Vorgehen bei den Experimenten und die eingesetzten Data-Mining-Methoden; in Abschnitt 4 werden die Ergebnisse der Evaluation dargestellt. Erste Verfahren wurden bereits in einem Masterarbeitsprojekt für den Vergleich der Verwendung von Anglizismen und möglichen indigenen Entsprechungen genutzt (Maria Ermakova, Berlin).