Deutschsprachige Onlinekorpora im Unterricht

Aus Kobra
Version vom 7. Oktober 2013, 14:31 Uhr von Hoffmann (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „==Ressourcen== =====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]===== DWDS-Kernkorpus Korpus deut…“)

(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Ressourcen

Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Kernkorpus Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist Umfang: > 100 Mio. Tokens Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar http://www.dwds.de/

Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Wortprofil Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet. Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente) Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar http://www.dwds.de/

Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]

Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache Derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter) Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.deutschestextarchiv.de/

Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]

Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar Umfang: > 4 Milliarden Tokens Nutzung: nur nach kostenloser Registrierung nutzbar https://cosmas2.ids-mannheim.de/cosmas2-web/

Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]

Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar Umfang: > 1 Milliarde Tokens Nutzung: nur nach kostenloser Registrierung nutzbar https://cosmas2.ids-mannheim.de/cosmas2-web/

Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]

Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen Umfang: Profile zu 220.000 lexikalischen Einheiten Nutzung: ohne Registrierung uneingeschränkt nutzbar http://corpora.ids-mannheim.de/ccdb/

WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]

Ausführungsumgebung für automatische Annotation von Textkorpora Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich. http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page

Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]

Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC)) Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich. http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra

Projekt Gutenberg [Hille & Partner, Hamburg]

Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann Umfang: > 5500 Werke, > 1100 Autoren Nutzung: ohne Registrierung uneingeschränkt nutzbar http://gutenberg.spiegel.de/

Dortmunder Chat-Korpus [Technische Universität Dortmund]

Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens) Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.chatkorpus.tu-dortmund.de/


Weitere Ressourcen:

Canoonet

Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf. Umfang: ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen) Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.canoo.net/

Duden online

Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus (> 2 Milliarden Wortformen). Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.duden.de/

Wortwarte [Dr. Lothar Lemnitzer – Berlin-Brandenburgische Akademie der Wissenschaften]

Sammlung von Neologismen in ihren jeweiligen Textstücken Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt). Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.wortwarte.de/