Fallstudien
Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:
- Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung). Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie zum/ins X bringen/kommen (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
- Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie); Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
- Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik). Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.
Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.
- Visualisierung von diachronen Kollokationen
- Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten
- Disambiguierung von Suchtreffern: Leiter und zeitnah
- Klassifikation von Stützverben: bringen, kommen, finden
- Klassifikation von Besonderheiten der Sprache in sozialen Medien:
Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden technischen Bericht.
- Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities):
Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden technischen Bericht.
- Aussondern von Präfixverben:
Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. kommt vor statt vorkommt, raten/rät statt geraten/gerät) konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung WebLicht gelöst werden. Beim 2. Projekt-Workshop in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.