KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)
ist ein Verbundprojekt, das vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird. Das Projekt wird seit September 2012 mit einer Laufzeit von 3 Jahren gefördert.

Beteiligte Disziplinen: Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. Projektbeteiligte)
Methoden und Anwendungsbereich: Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
Koordination: Prof. Dr. Angelika Storrer (TU Dortmund)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methode und Ressourcen des Projekts:

Wissenschaftliche Anwendungsfelder Methode Genutzte Ressourcen Entstehende Ressourcen

Entstehende Ressourcen

entwickelbarer Open-Source-Software zur Verfügung stehen. Weiterhin werden die Verfahren in die In¬frastrukturen der Sprachtechnologie-Partner eingebunden; konkret sind folgende Integrationsarbeiten geplant:

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW): Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
Seminar für Sprachwissenschaft (SfS), Universität Tübingen: Integration in die Nutzerschnittstelle von WebLicht.
Institut für deutsche Sprache (IDS) Mannheim: Integration in die Infrastruktur zur Pflege und zum Ausbau des Deutschen Referenzkorpus (DeReKo), in COSMAS bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform KorAP sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.

Da alle Sprachtechnologiepartner auch als CLARIN-D-Zentren fungieren, sichert diese Integration die nachhaltige Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus.

Für die korpus-basierte Erforschung der internetbasierten Kommunikation gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am Aufbau eines Referenzkorpus zur deutschprachigen internetbasierten Kommunikation IBK (DeRiK) und kooperieren dabei mit Partnern aus anderen europäischen Initiativen, die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der Text Encoding Initiative (TEI) Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. Beißwenger et al. 2012).

Wissenschaftliche Anwendungsfelder Methode Genutzte Ressourcen Entstehende Ressourcen

Projektbeschreibung/Entstehende Ressourcen

Entstehende Ressourcen

Navigationsmenü

Ansichten

Meine Werkzeuge

Projekt KobRA:

Wiki:

Suche

Werkzeuge