Deutschsprachige Onlinekorpora im Unterricht: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
Zeile 4: Zeile 4:
  
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
DWDS-Kernkorpus <br>
+
'''DWDS-Kernkorpus''' <br>
 
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist <br>
 
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist <br>
Umfang: > 100 Mio. Tokens <br>
+
<span style="color:#747474"> '''Umfang:''' </span> > 100 Mio. Tokens <br>
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar <br>
 
http://www.dwds.de/
 
http://www.dwds.de/
  
  
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
DWDS-Wortprofil  <br>
+
'''DWDS-Wortprofil''' <br>
 
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet. <br>
 
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet. <br>
Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)  <br>
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar  <br>
 
http://www.dwds.de/
 
http://www.dwds.de/
  
 
=====Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache  <br>
 
Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache  <br>
Derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)  <br>
+
<span style="color:#747474"> '''Derzeitiger Umfang:''' </span> 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.deutschestextarchiv.de/
 
http://www.deutschestextarchiv.de/
  
Zeile 27: Zeile 27:
 
=====Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]=====
 
=====Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]=====
 
Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
 
Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
Umfang: > 4 Milliarden Tokens  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> > 4 Milliarden Tokens  <br>
Nutzung: nur nach kostenloser Registrierung nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> nur nach kostenloser Registrierung nutzbar  <br>
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
  
Zeile 34: Zeile 34:
 
=====Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]=====
 
=====Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]=====
 
Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
 
Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
Umfang: > 1 Milliarde Tokens  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> > 1 Milliarde Tokens  <br>
Nutzung: nur nach kostenloser Registrierung nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> nur nach kostenloser Registrierung nutzbar  <br>
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
  
Zeile 41: Zeile 41:
 
=====Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]=====
 
=====Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]=====
 
Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen  <br>
 
Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen  <br>
Umfang: Profile zu 220.000 lexikalischen Einheiten  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> Profile zu 220.000 lexikalischen Einheiten  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://corpora.ids-mannheim.de/ccdb/
 
http://corpora.ids-mannheim.de/ccdb/
  
Zeile 48: Zeile 48:
 
=====WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
=====WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
Ausführungsumgebung für automatische Annotation von Textkorpora  <br>
 
Ausführungsumgebung für automatische Annotation von Textkorpora  <br>
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
  
Zeile 54: Zeile 54:
 
=====Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
=====Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))  <br>
 
Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))  <br>
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra
  
Zeile 60: Zeile 60:
 
=====Projekt Gutenberg [Hille & Partner, Hamburg]=====
 
=====Projekt Gutenberg [Hille & Partner, Hamburg]=====
 
Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann  <br>
 
Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann  <br>
Umfang: > 5500 Werke, > 1100 Autoren  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> > 5500 Werke, > 1100 Autoren  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://gutenberg.spiegel.de/
 
http://gutenberg.spiegel.de/
  
Zeile 67: Zeile 67:
 
=====Dortmunder Chat-Korpus [Technische Universität Dortmund]=====
 
=====Dortmunder Chat-Korpus [Technische Universität Dortmund]=====
 
Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen  <br>
 
Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen  <br>
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.chatkorpus.tu-dortmund.de/
 
http://www.chatkorpus.tu-dortmund.de/
  
Zeile 76: Zeile 76:
 
Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG  <br>
 
Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG  <br>
 
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.  <br>
 
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.  <br>
Umfang: ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.canoo.net/
 
http://www.canoo.net/
  
Zeile 84: Zeile 84:
 
Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des  
 
Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des  
 
Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus  <br>
 
Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus  <br>
Umfang > 2 Milliarden Wortformen  <br>
+
<span style="color:#747474"> '''Umfang:''' </span> > 2 Milliarden Wortformen  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.duden.de/
 
http://www.duden.de/
  
Zeile 92: Zeile 92:
 
Sammlung von Neologismen in ihren jeweiligen Textstücken  <br>
 
Sammlung von Neologismen in ihren jeweiligen Textstücken  <br>
 
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).  <br>
 
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).  <br>
Nutzung: ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.wortwarte.de/
 
http://www.wortwarte.de/

Version vom 7. Oktober 2013, 15:27 Uhr

Ressourcen

Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Kernkorpus
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist
Umfang: > 100 Mio. Tokens
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/


Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Wortprofil
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet.
Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/

Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]

Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache
Derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.deutschestextarchiv.de/


Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]

Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 4 Milliarden Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/


Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]

Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 1 Milliarde Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/

Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]

Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen
Umfang: Profile zu 220.000 lexikalischen Einheiten
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://corpora.ids-mannheim.de/ccdb/


WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]

Ausführungsumgebung für automatische Annotation von Textkorpora
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page


Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]

Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra


Projekt Gutenberg [Hille & Partner, Hamburg]

Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann
Umfang: > 5500 Werke, > 1100 Autoren
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://gutenberg.spiegel.de/


Dortmunder Chat-Korpus [Technische Universität Dortmund]

Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.chatkorpus.tu-dortmund.de/

Weitere Ressourcen:

Canoonet

Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.
Umfang: ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.canoo.net/


Duden online

Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus
Umfang: > 2 Milliarden Wortformen
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.duden.de/


Wortwarte [Dr. Lothar Lemnitzer – Berlin-Brandenburgische Akademie der Wissenschaften]

Sammlung von Neologismen in ihren jeweiligen Textstücken
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.wortwarte.de/