Deutschsprachige Onlinekorpora im Unterricht: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „==Ressourcen== =====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]===== DWDS-Kernkorpus Korpus deut…“)
 
(Ressourcen)
Zeile 2: Zeile 2:
  
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
DWDS-Kernkorpus  
+
DWDS-Kernkorpus <br>
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist
+
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist <br>
Umfang: > 100 Mio. Tokens
+
Umfang: > 100 Mio. Tokens <br>
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
+
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar <br>
 
http://www.dwds.de/
 
http://www.dwds.de/
 +
  
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
DWDS-Wortprofil  
+
DWDS-Wortprofil <br>
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet.
+
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines <br>Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet.
Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)
+
Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente) <br>
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
+
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar <br>
 
http://www.dwds.de/
 
http://www.dwds.de/
 +
  
 
=====Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache
+
Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache <br>
Derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)
+
Derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter) <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar
+
Nutzung: ohne Registrierung uneingeschränkt nutzbar <br>
 
http://www.deutschestextarchiv.de/
 
http://www.deutschestextarchiv.de/
 +
  
 
=====Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]=====
 
=====Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]=====
Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
+
Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar <br>
Umfang: > 4 Milliarden Tokens
+
Umfang: > 4 Milliarden Tokens <br>
Nutzung: nur nach kostenloser Registrierung nutzbar
+
Nutzung: nur nach kostenloser Registrierung nutzbar <br>
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 +
  
 
=====Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]=====
 
=====Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]=====
Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
+
Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar <br>
Umfang: > 1 Milliarde Tokens
+
Umfang: > 1 Milliarde Tokens <br>
Nutzung: nur nach kostenloser Registrierung nutzbar
+
Nutzung: nur nach kostenloser Registrierung nutzbar <br>
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
  
 
 
 
=====Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]=====
 
=====Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]=====
Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen
+
Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen <br>
Umfang: Profile zu 220.000 lexikalischen Einheiten
+
Umfang: Profile zu 220.000 lexikalischen Einheiten <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar
+
Nutzung: ohne Registrierung uneingeschränkt nutzbar <br>
 
http://corpora.ids-mannheim.de/ccdb/
 
http://corpora.ids-mannheim.de/ccdb/
 +
  
 
=====WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
=====WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]=====
Ausführungsumgebung für automatische Annotation von Textkorpora
+
Ausführungsumgebung für automatische Annotation von Textkorpora <br>
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
+
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich. <br>
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
 +
  
 
=====Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
=====Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]=====
Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))
+
Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC)) <br>
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
+
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich. <br>
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra
 +
  
 
=====Projekt Gutenberg [Hille & Partner, Hamburg]=====
 
=====Projekt Gutenberg [Hille & Partner, Hamburg]=====
Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann
+
Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann <br>
Umfang: > 5500 Werke, > 1100 Autoren  
+
Umfang: > 5500 Werke, > 1100 Autoren <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar
+
Nutzung: ohne Registrierung uneingeschränkt nutzbar <br>
 
http://gutenberg.spiegel.de/
 
http://gutenberg.spiegel.de/
 +
  
 
=====Dortmunder Chat-Korpus [Technische Universität Dortmund]=====
 
=====Dortmunder Chat-Korpus [Technische Universität Dortmund]=====
Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen
+
Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen <br>
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)
+
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens) <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar
+
Nutzung: ohne Registrierung uneingeschränkt nutzbar <br>
 
http://www.chatkorpus.tu-dortmund.de/
 
http://www.chatkorpus.tu-dortmund.de/
  
 
 
 
==Weitere Ressourcen:==
 
==Weitere Ressourcen:==
  

Version vom 7. Oktober 2013, 14:39 Uhr

Ressourcen

Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Kernkorpus
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist
Umfang: > 100 Mio. Tokens
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/


Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Wortprofil
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines
Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet. Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/


Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]

Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache
Derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.deutschestextarchiv.de/


Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]

Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 4 Milliarden Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/


Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]

Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 1 Milliarde Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/

Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]

Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen
Umfang: Profile zu 220.000 lexikalischen Einheiten
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://corpora.ids-mannheim.de/ccdb/


WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]

Ausführungsumgebung für automatische Annotation von Textkorpora
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page


Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]

Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra


Projekt Gutenberg [Hille & Partner, Hamburg]

Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann
Umfang: > 5500 Werke, > 1100 Autoren
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://gutenberg.spiegel.de/


Dortmunder Chat-Korpus [Technische Universität Dortmund]

Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.chatkorpus.tu-dortmund.de/

Weitere Ressourcen:

Canoonet

Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf. Umfang: ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen) Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.canoo.net/

Duden online

Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus (> 2 Milliarden Wortformen). Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.duden.de/

Wortwarte [Dr. Lothar Lemnitzer – Berlin-Brandenburgische Akademie der Wissenschaften]

Sammlung von Neologismen in ihren jeweiligen Textstücken Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt). Nutzung: ohne Registrierung uneingeschränkt nutzbar http://www.wortwarte.de/