Projektbeschreibung/Methode

Aus Kobra
Wechseln zu: Navigation, Suche

Kobrabar.jpg

KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)
ist ein Verbundprojekt, das vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird. Das Projekt wird seit September 2012 mit einer Laufzeit von 3 Jahren gefördert.

  • Beteiligte Disziplinen: Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. Projektbeteiligte)
  • Methoden und Anwendungsbereich: Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
  • Koordination: Prof. Dr. Angelika Storrer (TU Dortmund)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methode und Ressourcen des Projekts:

Kobrabar.jpg

Wissenschaftliche Anwendungsfelder Kobradot.jpg Methode Kobradot.jpg Genutzte Ressourcen Kobradot.jpg Entstehende Ressourcen

Kobrabar.jpg

Methode

Im Projekt arbeiten Partner aus Informatik, Linguistik und Sprachtechnologie zusammen: Die Data-Mining-Methoden kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als Wissensbasis dienen strukturierte Sprachressourcen der Sprachtechnologie-Partner (BBAW, IDS, SfS Tübingen), die im Rahmen von CLARIN-D Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine Schnittstelle zu den linguistischen Anwendern und andererseits eine interne Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur. Das folgende Schaubild verdeutlicht diese Verzahnung:

Kobra-architektur.jpg

Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante Verfahren an konkreten Fallstudien erprobt:

  • Die Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung);
  • das Clustering der Ergebnisliste, sodass eine übersichtliche Struktur auch visuell dargestellt werden kann;
  • das Erkennen von "ungewöhnlichen" Belegen (Ausreißern);
  • die aufgabenbezogene linguistische Annotation.

Die im Projekt entwickelten Verfahren werden im dritten Projektjahr in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert. Durch diese Integration ist der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert.

Kobrabar.jpg

Wissenschaftliche Anwendungsfelder Kobradot.jpg Methode Kobradot.jpg Genutzte Ressourcen Kobradot.jpg Entstehende Ressourcen

Kobrabar.jpg