Tägliches Wortspiel · Linguistik
Über die App · Hintergründe · Quellen
Das Spiel
Signifikation ist ein Bildungsprojekt, entwickelt von Joscha Fresmann. Ich bin mittlerweile Lehrkraft für Deutsch und Geschichte doch noch aus Studienzeiten hielt sich das Interesse an Sprachwissenschaft, Linguistik und insbesondere Korpuslinguistik. Die Idee zu diesem Projekt entstand aus meinem Interesse daran, wie Sprache funktioniert und gebraucht wird, unabhängig von offiziellen Regelwerken, sondern praktisch und musterhaft anhand konkreter Texte (mündlich sowie schriftsprachlich). Nicht zuletzt auch aus meinem Wunsch, dieses Wissen über Sprache spielerisch zugänglich zu machen. Grundlage der verschiedenen Spielmodi sind statistisch berechnete Kollokationen aus über zwei Milliarden Tokens deutschsprachiger Texte, die ich aus unterschiedlichen Kopora selbst zusammengetragen habe. (s. Verwendete Korpora).
Mein Ziel mit diesem Projekt ist es also, linguistische Konzepte kurzweilig erlebbar zu machen und auch so gut es geht, mit fachlichem Anspruch zu erklären. Das Projekt richtet sich damit an alle Sprachinteressierten, Studierenden, Schülerinnen und Schüler und Alle, die sich unsere Sprache mal ein bisschen genauer anschauen wollen.
Signifikation bezeichnet in Linguistik und Semiotik den Prozess der Bedeutungsgebung: das Verhältnis zwischen einem Zeichen (Signifikant) und dem, wofür es steht (Signifikat), die Aktualisierung von Bedeutung im konkreten Sprachgebrauch.1 Im weitesten Sinne ist Signifikation der Grundvorgang jedes Zeichenaustauschs: Ein Signal löst beim Empfänger eine Interpretationsreaktion aus.2 Das Lateinische sīgnificāre trägt diese Bedeutungen bereits in sich: anzeigen, andeuten, auf etwas hindeuten; meinen, bezeichnen.
Nicht zuletzt beruht die App und Auswertung der Daten auf dem logDice-Wert, die genau das misst: eine statistische Signifikanz zwischen Wörtern, eine im besten Fall bedeutsame und eindeutig nicht zufällige sprachliche Verbindung. Daneben steckt im Wort das Ende von Kollokation, die in diesem Projekt eine nicht ganz unwichtige Rolle spielt.
Eine Kollokation ist eine einfache Wortverbindung, bei der zwei oder mehr Wörter überzufällig häufig gemeinsam auftreten, also häufiger als der bloße Zufall es erwarten ließe.3
Der Begriff wird in der Linguistik in unterschiedlichen Bedeutungen gebraucht. Eine engere Bestimmung geht auf F. J. Hausmann zurück: Kollokationen sind charakteristische Wortpaare, bei denen ein Wort (die Basis) ein bestimmtes anderes (den Kollokator) geradezu verlangt. Man sagt zum Beispiel eher blondes Haar und nicht gelbes Haar, nicht weil Letzteres falsch wäre, sondern weil der Sprachgebrauch blond als den gewohnten Partner von Haar einfordert.4 Kollokationen liegen damit zwischen ganz freien Verbindungen wie rotes Auto und festen Idiomen wie ins Gras beißen: inhaltlich begründet, aber sprachlich konventionalisiert.
Methodisch unterscheiden sich zwei Zugänge Kollokationen zu untersuchen. Statistische Verfahren suchen nach häufigen Nachbarschaften unabhängig von der Grammatik; syntaktische Ansätze beschränken sich auf bestimmte Wortartkombinationen wie Substantiv-Adjektiv oder Verb-Objekt.5 Das Projekt "Signifikation" folgt dem syntaktischen Weg. Alle Kollokationspaare entstammen syntaktischen Abhängigkeitsrelationen, die mithilfe eines Relationen-Mapping durch die Software spaCy ausgewertet wurden. (s. Die Daten). Fehler können bei der großen Anzahl an Daten natürlich passieren.
Die Methodik
Der logDice-Wert6 ist ein faszinierendes statistisches Assoziationsmaß, das quantifiziert, wie charakteristisch das gemeinsame Auftreten zweier Wörter im Vergleich zu ihrer zufällig zu erwartenden Kookkurrenz ist. Dieser Wert entscheidet quasi allein darüber, welche Kollokationen ganz oben in den Spielen auftauchen. Die ganz ganz simple Formel dafür lautet:
logDice(a, b) = 14 + log2( 2 · fab / (fa + fb) )
Dabei bezeichnet fab die Häufigkeit des gemeinsamen Vorkommens (die Paarfrequenz), fa und fb die jeweiligen Einzelhäufigkeiten beider Wörter im Gesamtkorpus. Der Maximalwert 14 wird rein theoretisch erreicht, wenn beide Wörter ausschließlich miteinander auftreten. Werte ≥ 0 signalisieren schon eine überdurchschnittliche Assoziation; linguistisch aussagekräftige Kollokationen liegen in der Praxis meist zwischen 5 und 12.
Im Vergleich zu anderen Maßen wie dem Pointwise Mutual Information-Score (PMI) ist logDice robust gegenüber seltenen Wörtern: Ein Hapax legomenon (ein Wort, das in einem Korpus nur einmal vorkommt) kann keinen künstlich hohen Score erzielen, weil sein geringer fa-Wert den Quotienten deckelt. Gegenüber der reinen Häufigkeit hat logDice den Vorteil, häufige Funktionswörter (sein, haben, und) zugunsten semantisch gehaltvoller Verbindungen zu benachteiligen. Die Ergebnisse des logDice-Wertes sind natürlich nur so gut, wie die zugrunde liegende Auswahl der Korpora es zulässt.
Die Kollokationsdaten werden durch eine eigene mehrstufige Extraktionspipeline aus offen lizenzierten deutschen Korpora gewonnen. Die Schritte im Überblick:
text, quelle, genre, epoche, jahr. Das Entstehungsjahr jedes Textes wird dabei bewahrt — Grundlage für die spätere Zeitreise-Auswertung nach Jahrzehnten.de_zdl_lg (ZDL/BBAW, trainiert auf dem HDT-Treebank mit DWDSmor-Lemmatisierung) verwendet das Universal-Dependencies-Tagset. Dessen Abhängigkeitslabels werden auf linguistisch interpretierbare Relationstypen abgebildet: nsubj → Subjekt, obj → Objekt, amod → Adjektivattribut, obl → Präpositionalgruppe, conj → Koordination u. a.wortprofil.db gespeichert und der App per SQLite-Query zur Verfügung gestellt.Zusätzlich zur Kollokationsdatenbank entsteht aus denselben Korpora ein Volltextindex (SQLite FTS5) für die Belegsuche. Beim Anklicken einer Kollokation werden Originalsätze mit beiden Wörtern gesucht und mit vollständiger Quellenangabe und Lizenzhinweis angezeigt. Der Index umfasst über 50 Millionen Sätze aus neun Korpora. Für die Zeitreise-Runde werden die Tripel nach Entstehungsjahrzehnt gruppiert, sodass Verschiebungen im Kollokationsverhalten über Jahrhunderte sichtbar werden. Die Wort-Zwilling-Runde vergleicht die logDice-Profile zweier ähnlicher Wörter direkt gegeneinander.
Die Quellen
Korpora ohne Belegeindex fließen in das Wortprofil ein, werden aktuell aber nicht für den Textbeleg-Index verwendet (da historische Sprache für Spieler eher schwer zugänglich ist).
Gesamt: 2,19 Mrd. Tokens aus 15 Korpora
| Korpus | Inhalt | Lizenz | Tokens | Quelle |
|---|---|---|---|---|
| Wortschatz-Korpus Leipzig | Zeitungsnachrichten (deu_news, deu_newscrawl) | CC BY | 535 Mio. | Universität Leipzig |
| Bundestag-Protokolle (DIP) | Plenarprotokolle des Deutschen Bundestags (XML + PDF) | Datenlizenz Deutschland BY 2.0 | 298 Mio. | dip.bundestag.de |
| German Political Speeches Corpus | Politische Reden (Bundesregierung, 1984–2019) | CC BY-SA | 11 Mio. | Zenodo 3611246 |
| Gesetze im Internet | Bundesgesetze und -verordnungen | Gemeinfrei § 5 UrhG | 19 Mio. | gesetze-im-internet.de |
| Wikibooks auf Deutsch | Freie Lehr- und Sachbücher | CC BY-SA 3.0 | 28 Mio. | Zenodo 8081095 |
| Wikivoyage auf Deutsch | Freier Reiseführer | CC BY-SA 3.0 | 17 Mio. | Zenodo 7568517 |
| DiBiLit | Digitale Bibliothek Literatur (Belletristik, 19.–20. Jh.) | CC BY-SA 4.0 | 93 Mio. | Zenodo 5786725 |
| Der Neue Pitaval | Kriminalgeschichten (1842–1890) | CC BY-SA 4.0 | 6 Mio. | Zenodo 6682897 |
| Reichstagsprotokolle | Stenographische Berichte des Deutschen Reichstags (1867–1942) · nur Wortprofil | CC BY-SA 4.0 | 256 Mio. | German Commons |
| DiBiPhil | Digitale Bibliothek Philosophie · nur Wortprofil | CC BY-SA 4.0 | 13 Mio. | German Commons |
| Deutsches Textarchiv – Kernkorpus & Erweiterungen | Belletristische, wissenschaftliche und Gebrauchstexte (17.–20. Jh.) · nur Wortprofil | CC BY-SA 4.0 | 320 Mio. | deutschestextarchiv.de |
| DTA Sondersammlungen | Edition Humboldt Digital, Jean-Paul-Briefe, Dinglers Polytechnisches Journal, Patiententexte, Novellenschatz, Soldatenbriefe, Stimm-los · nur Wortprofil | CC BY-SA 4.0 | 81 Mio. | DTA GitHub |
| GEI-Digital | Historische Schulbücher (17.–20. Jh.) · nur Wortprofil | Public Domain | 506 Mio. | Zenodo 15729290 |
| Referenzkorpus Frühneuhochdeutsch | Frühneuhochdeutsche Texte (1350–1650) · nur Wortprofil | CC BY-SA 4.0 | 3 Mio. | Ruhr-Universität Bochum |
| Referenzkorpus Mittelhochdeutsch | Mittelhochdeutsche Texte (1050–1350) · nur Wortprofil | CC BY-SA 4.0 | 3 Mio. | Ruhr-Universität Bochum |
Tokens gezählt als Leerzeichen-getrennte Wortformen (inkl. Interpunktion).
Literatur