Projektbeschreibung/Entstehende Ressourcen

Aus Kobra
Wechseln zu: Navigation, Suche

Kobrabar.jpg

KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)
ist ein Verbundprojekt, das vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wird. Das Projekt wird seit September 2012 mit einer Laufzeit von 3 Jahren gefördert.

  • Beteiligte Disziplinen: Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. Projektbeteiligte)
  • Methoden und Anwendungsbereich: Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache)
  • Koordination: Prof. Dr. Angelika Storrer (TU Dortmund)

Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methode und Ressourcen des Projekts:

Kobrabar.jpg

Wissenschaftliche Anwendungsfelder Kobradot.jpg Methode Kobradot.jpg Genutzte Ressourcen Kobradot.jpg Entstehende Ressourcen

Kobrabar.jpg

Entstehende Ressourcen

Alle entwickelten und erprobten technischen Verfahren werden nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung stehen. Weiterhin werden die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret sind folgende Integrationsarbeiten geplant:

  • Berlin-Brandenburgische Akademie der Wissenschaften (BBAW): Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen.
  • Seminar für Sprachwissenschaft (SfS), Universität Tübingen: Integration in die Nutzerschnittstelle von WebLicht.
  • Institut für deutsche Sprache (IDS) Mannheim: Integration in die Infrastruktur zur Pflege und zum Ausbau des Deutschen Referenzkorpus (DeReKo), in COSMAS bzw. in die gerade im Aufbau befindliche Korpusanalyse-Plattform KorAP sowie über die vom IDS angebotenen Web-Service-APIs in CLARIN-D; DeReKo wird zudem um die von den Klassifikationstools erzeugten Metadaten bzw. Annotationen erweitert.

Da alle Sprachtechnologiepartner auch als CLARIN-D-Zentren fungieren, sichert diese Integration die nachhaltige Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus.

Für die korpus-basierte Erforschung der internetbasierten Kommunikation gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am Aufbau eines Referenzkorpus zur deutschprachigen internetbasierten Kommunikation IBK (DeRiK) und kooperieren dabei mit Partnern aus anderen europäischen Initiativen, die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der Text Encoding Initiative (TEI) Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. Beißwenger et al. 2012).

Kobrabar.jpg

Wissenschaftliche Anwendungsfelder Kobradot.jpg Methode Kobradot.jpg Genutzte Ressourcen Kobradot.jpg Entstehende Ressourcen

Kobrabar.jpg