Projektbeschreibung/Methode: Unterschied zwischen den Versionen
(Die Seite wurde neu angelegt: „<table width="730" border="0"><tr><td> Bild:Kobrabar.jpg {{:Projektbeschreibung/Introtext}} Bild:Kobrabar.jpg <big><u>[[Projektbeschreibung/Anwendun…“) |
K |
||
Zeile 12: | Zeile 12: | ||
=Methode= | =Methode= | ||
− | Im Projekt arbeiten [[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]] zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen [[Projektbeschreibung/Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]] (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung: | + | Im Projekt arbeiten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienen '''[[Projektbeschreibung/Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung: |
[[Bild:Kobra-architektur.jpg]] | [[Bild:Kobra-architektur.jpg]] | ||
− | Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an [[Projektbeschreibung/Anwendungsfelder|konkreten Fallstudien]] erprobt: | + | Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung/Anwendungsfelder|konkreten Fallstudien]]''' erprobt: |
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)'''; | *Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)'''; | ||
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann; | *das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann; |
Aktuelle Version vom 16. Juni 2013, 17:36 Uhr
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)
Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methode und Ressourcen des Projekts: Wissenschaftliche Anwendungsfelder MethodeIm Projekt arbeiten Partner aus Informatik, Linguistik und Sprachtechnologie zusammen: Die Data-Mining-Methoden kommen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als Wissensbasis dienen strukturierte Sprachressourcen der Sprachtechnologie-Partner (BBAW, IDS, SfS Tübingen), die im Rahmen von CLARIN-D Infrastrukturen für Sprachressourcen bereitstellen. Die Data-Mining-Verfahren des Projektes setzen auf diesen Infrastrukturen auf. Dabei ergibt sich einerseits eine Schnittstelle zu den linguistischen Anwendern und andererseits eine interne Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur. Das folgende Schaubild verdeutlicht diese Verzahnung: Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei werden folgende, für viele linguistische Untersuchungen relevante Verfahren an konkreten Fallstudien erprobt:
Die im Projekt entwickelten Verfahren werden im dritten Projektjahr in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert. Durch diese Integration ist der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert. Wissenschaftliche Anwendungsfelder |