Projektbeschreibung/Methode
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)
Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methode und Ressourcen des Projekts: Wissenschaftliche Anwendungsfelder MethodeIm Projekt arbeiten Partner aus Informatik, Linguistik und Sprachtechnologie zusammen: Die Data-Mining-Methoden kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als Wissensbasis dienen strukturierte Sprachressourcen der Sprachtechnologie-Partner (BBAW, IDS, SfS Tübingen), die im Rahmen von CLARIN-D Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine Schnittstelle zu den linguistischen Anwendern und andererseits eine interne Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur. Das folgende Schaubild verdeutlicht diese Verzahnung: Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante Verfahren an konkreten Fallstudien erprobt:
Die im Projekt entwickelten Verfahren werden im dritten Projektjahr in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert. Durch diese Integration ist der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert. Wissenschaftliche Anwendungsfelder |