Projektbeschreibung/Entstehende Ressourcen
KobRA (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)
Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methode und Ressourcen des Projekts: Wissenschaftliche Anwendungsfelder Entstehende Ressourcenentwickelbarer Open-Source-Software zur Verfügung stehen. Weiterhin werden die Verfahren in die In¬frastrukturen der Sprachtechnologie-Partner eingebunden; konkret sind folgende Integrationsarbeiten geplant:
Da alle Sprachtechnologiepartner auch als CLARIN-D-Zentren fungieren, sichert diese Integration die nachhaltige Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus. Für die korpus-basierte Erforschung der internetbasierten Kommunikation gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am Aufbau eines Referenzkorpus zur deutschprachigen internetbasierten Kommunikation IBK (DeRiK) und kooperieren dabei mit Partnern aus anderen europäischen Initiativen, die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der Text Encoding Initiative (TEI) Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. Beißwenger et al. 2012). Wissenschaftliche Anwendungsfelder |