Fallstudien: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
Zeile 12: Zeile 12:
 
*[[Klassifikation von Stützverben: bringen, kommen, finden]]
 
*[[Klassifikation von Stützverben: bringen, kommen, finden]]
  
*Klassifikation von Besonderheiten der Sprache in sozialen Medien  
+
*Klassifikation von Besonderheiten der Sprache in sozialen Medien: Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
+
*Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities): Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
*Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities)
+
*Aussondern von Präfixverben: Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung ''WebLicht'' gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim  informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.
Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden [[Media: KobRA-MS2_Verfahren.pdf|technischen Bericht]].
 
*Aussondern von Präfixverben
 
Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. ''kommt vor'' statt ''vorkommt'', ''raten/rät'' statt ''geraten/gerät'') konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration
 
des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung WebLicht gelöst werden. Beim [[Dokumentation: 3. Projektworkshop (September 2014)|2. Projekt-Workshop]] in Mannheim  informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.
 

Version vom 7. März 2016, 17:32 Uhr

Drei linguistische Forschungsbereiche dienten als Testbett für die im Rahmen des KobRA-Projekts erprobten und entwickelten Data-Mining-Verfahren. Zu allen drei Bereichen wurden Fallstudien definiert, aus denen sich konkrete Anforderungen an die Verfahren ergeben haben, die als exemplarisch für die Anforderungen im zugehörigen Forschungsfeld gelten können:

  1. Die Entwicklung von Wortschatz, Syntax, Morphologie in einem bestimmten Untersuchungszeitraum (diachronische Sprachforschung). Zu diesem Bereich gehören linguistische Fallstudien, die sich mit der Entwicklung und Ausdifferenzierung von Konstruktionen wie zum/ins X bringen/kommen (sogenannte "Stützverbgefüge") im Deutschen beschäftigen.
  2. Die Beschreibung und Visualisierung des Bedeutungsspektrums zu einem Stichwort in einem (digitalen) Wörterbuch (Lexikographie); Entwicklungspfade bei der Ausdifferenzierung von Bedeutungen über Zeiträume und Textsortenbereiche hinweg. Zu diesem Bereich gehören Fallstudien zur korpus-basierten lexikographischen Sprachbeschreibung.
  3. Der Vergleich von Sprachmerkmalen in verschiedenen Textsorten, Fachsprachen, gesprochener vs. geschriebener Sprache (Varietätenlinguistik). Zu diesem Bereich gehört eine linguistische Fallstudie "Netspeak", die sprachliche Unterschiede zwischen den Artikel- und den Diskussionsseiten der deutschen Wikipedia untersucht.

Die folgende Übersicht listet die im KobRA-Projekt durchgeführten und dokumentierten Fallstudien.

  • Klassifikation von Besonderheiten der Sprache in sozialen Medien: Die getesteten Data-Mining-Verfahren ermöglichen zumindest für eine Auswahl innovativer Sprachmittel der Kommunikation in sozialen Medien (z.B. Aktionswörter) eine automatische Analyse der Gesamttrefferlisten, durch die mit akzeptabler Genauigkeit Aussagen über den Anteil tatsächlich enthaltener Sprachmittel des gesuchten Typs gemacht werden können. Weitere Informationen zur Fallstudie und den angewandten Verfahren finden sich im entsprechenden technischen Bericht.
  • Erkennen von Ausreißern (z.B. Metaphorische Gebrauchsweisen oder Named Entities): Die im Rahmen des Projekts durchgeführten Studien zeigen, dass bei der automatischen Partitionierung nach Bedeutungen für metaphorische Verwendungen mit hinreichender Zuverlässigkeit eigene Partitionen generiert werden. Weitere Information und Beschreibung der Verfahren zur Partitionierung von Bedeutungen finden sich im entsprechenden technischen Bericht.
  • Aussondern von Präfixverben: Die Aussonderung falsch positiver Treffer aufgrund homographer Wortformen vom Typ „Präfixverben“ (z.B. kommt vor statt vorkommt, raten/rät statt geraten/gerät) konnte im Laufe des Projektzeitraums vom Tübinger Sprachtechnologiepartner durch Anpassen und Integration des TüBa-D/Z-Lemmatisierers (jetzt: SepVerb-Lemmatizer) in die Annotationsumgebung WebLicht gelöst werden. Beim 2. Projekt-Workshop in Mannheim informierten Daniël de Kok und Marie Hinrichs (Universität Tübingen) über das Annotationswerkzeug.