Deutschsprachige Onlinekorpora im Unterricht: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
(Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften])
Zeile 6: Zeile 6:
 
'''DWDS-Kernkorpus''' <br>
 
'''DWDS-Kernkorpus''' <br>
 
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist <br>
 
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist <br>
<span style="color:#747474"> '''Umfang:''' </span> > 100 Mio. Tokens <br>
+
<span style="color:#949494"> '''Umfang:''' </span> > 100 Mio. Tokens <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar <br>
 
http://www.dwds.de/
 
http://www.dwds.de/
  
Zeile 14: Zeile 14:
 
'''DWDS-Wortprofil'''  <br>
 
'''DWDS-Wortprofil'''  <br>
 
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet. <br>
 
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet. <br>
<span style="color:#747474"> '''Umfang:''' </span> > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar  <br>
 
http://www.dwds.de/
 
http://www.dwds.de/
  
 
=====Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
=====Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]=====
 
Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache  <br>
 
Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache  <br>
<span style="color:#747474"> '''derzeitiger Umfang:''' </span> 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)  <br>
+
<span style="color:#949494"> '''derzeitiger Umfang:''' </span> 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.deutschestextarchiv.de/
 
http://www.deutschestextarchiv.de/
  
 
=====Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]=====
 
=====Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]=====
 
Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
 
Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
<span style="color:#747474"> '''Umfang:''' </span> > 4 Milliarden Tokens  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> > 4 Milliarden Tokens  <br>
<span style="color:#747474"> '''Nutzung:''' </span> nur nach kostenloser Registrierung nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> nur nach kostenloser Registrierung nutzbar  <br>
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
  
Zeile 33: Zeile 33:
 
=====Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]=====
 
=====Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]=====
 
Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
 
Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar  <br>
<span style="color:#747474"> '''Umfang:''' </span> > 1 Milliarde Tokens  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> > 1 Milliarde Tokens  <br>
<span style="color:#747474"> '''Nutzung:''' </span> nur nach kostenloser Registrierung nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> nur nach kostenloser Registrierung nutzbar  <br>
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
 
https://cosmas2.ids-mannheim.de/cosmas2-web/
  
Zeile 40: Zeile 40:
 
=====Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]=====
 
=====Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]=====
 
Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen  <br>
 
Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen  <br>
<span style="color:#747474"> '''Umfang:''' </span> Profile zu 220.000 lexikalischen Einheiten  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> Profile zu 220.000 lexikalischen Einheiten  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://corpora.ids-mannheim.de/ccdb/
 
http://corpora.ids-mannheim.de/ccdb/
  
Zeile 47: Zeile 47:
 
=====WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
=====WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
Ausführungsumgebung für automatische Annotation von Textkorpora  <br>
 
Ausführungsumgebung für automatische Annotation von Textkorpora  <br>
<span style="color:#747474"> '''Nutzung:''' </span> über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
  
Zeile 53: Zeile 53:
 
=====Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
=====Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]=====
 
Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))  <br>
 
Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))  <br>
<span style="color:#747474"> '''Nutzung:''' </span> über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.  <br>
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra
 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra
  
Zeile 59: Zeile 59:
 
=====Projekt Gutenberg [Hille & Partner, Hamburg]=====
 
=====Projekt Gutenberg [Hille & Partner, Hamburg]=====
 
Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann  <br>
 
Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann  <br>
<span style="color:#747474"> '''Umfang:''' </span> > 5500 Werke, > 1100 Autoren  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> > 5500 Werke, > 1100 Autoren  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://gutenberg.spiegel.de/
 
http://gutenberg.spiegel.de/
  
Zeile 66: Zeile 66:
 
=====Dortmunder Chat-Korpus [Technische Universität Dortmund]=====
 
=====Dortmunder Chat-Korpus [Technische Universität Dortmund]=====
 
Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen  <br>
 
Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen  <br>
<span style="color:#747474"> '''Umfang:''' </span> 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.chatkorpus.tu-dortmund.de/
 
http://www.chatkorpus.tu-dortmund.de/
  
Zeile 75: Zeile 75:
 
Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG  <br>
 
Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG  <br>
 
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.  <br>
 
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.  <br>
<span style="color:#747474"> '''Umfang:''' </span> ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.canoo.net/
 
http://www.canoo.net/
  
Zeile 83: Zeile 83:
 
Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des  
 
Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des  
 
Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus  <br>
 
Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus  <br>
<span style="color:#747474"> '''Umfang:''' </span> > 2 Milliarden Wortformen  <br>
+
<span style="color:#949494"> '''Umfang:''' </span> > 2 Milliarden Wortformen  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.duden.de/
 
http://www.duden.de/
  
Zeile 91: Zeile 91:
 
Sammlung von Neologismen in ihren jeweiligen Textstücken  <br>
 
Sammlung von Neologismen in ihren jeweiligen Textstücken  <br>
 
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).  <br>
 
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).  <br>
<span style="color:#747474"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
+
<span style="color:#949494"> '''Nutzung:''' </span> ohne Registrierung uneingeschränkt nutzbar  <br>
 
http://www.wortwarte.de/
 
http://www.wortwarte.de/

Version vom 7. Oktober 2013, 15:35 Uhr

Ressourcen

Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Kernkorpus
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist
Umfang: > 100 Mio. Tokens
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/


Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Wortprofil
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet.
Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätze, ca. 4 Mio. Dokumente)
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/

Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]

Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache
derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.deutschestextarchiv.de/

Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]

Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 4 Milliarden Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/


Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]

Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 1 Milliarde Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/

Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]

Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen
Umfang: Profile zu 220.000 lexikalischen Einheiten
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://corpora.ids-mannheim.de/ccdb/


WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]

Ausführungsumgebung für automatische Annotation von Textkorpora
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page


Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]

Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra


Projekt Gutenberg [Hille & Partner, Hamburg]

Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann
Umfang: > 5500 Werke, > 1100 Autoren
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://gutenberg.spiegel.de/


Dortmunder Chat-Korpus [Technische Universität Dortmund]

Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.chatkorpus.tu-dortmund.de/

Weitere Ressourcen:

Canoonet

Der Online-Sprachservice (Deutsche Wörterbücher und Grammatik) erarbeitet in Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.
Umfang: ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.canoo.net/


Duden online

Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus
Umfang: > 2 Milliarden Wortformen
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.duden.de/


Wortwarte [Dr. Lothar Lemnitzer – Berlin-Brandenburgische Akademie der Wissenschaften]

Sammlung von Neologismen in ihren jeweiligen Textstücken
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.wortwarte.de/