Was ist der logDice-Wert?

Der logDice-Wert ist ein statistisches Assoziationsmaß für Kookkurrenzen im Korpus. Er setzt die gemeinsamen Vorkommen zweier Wörter ins Verhältnis zu ihren jeweiligen Einzelhäufigkeiten — je höher der Wert, desto charakteristischer und nicht-zufälliger die Wortverbindung.

Woher stammen die Daten bei Signifikation?

Die Kollokationsdaten werden mit einer eigenen Verarbeitungspipeline aus offen lizenzierten deutschen Korpora gewonnen. Das Sprachmodell spaCy de_zdl_lg (ZDL/BBAW, Universal Dependencies) analysiert die syntaktische Struktur der Texte; aus den gefundenen Abhängigkeitspaaren wird der logDice-Wert berechnet. Alle Korpora stehen unter offenen Lizenzen (CC BY, CC BY-SA, Gemeinfrei u. a.).

Was bedeutet der Name Signifikation?

In der Linguistik bezeichnet Signifikation den Prozess der Bedeutungsgebung — das Verhältnis zwischen einem sprachlichen Zeichen und dem, wofür es steht. Gleichzeitig steckt im Wort das Ende von 'Kollokation', und der zugrundeliegende logDice-Wert misst eine statistische Signifikanz.

← Zurück zur App

Tägliches Wortspiel · Linguistik

Signifikation [zɪɡnɪfɪkaˈtsi̯oːn]

Q: Was ist eine Kollokation?

Kollokationen sind charakteristische syntagmatische Wortverbindungen, in denen ein Element (die Basis) den anderen Bestandteil (den Kollokator) semantisch selegiert. Man sagt 'blondes Haar' und nicht 'gelbes Haar' — nicht weil Letzteres grammatisch falsch wäre, sondern weil der konventionalisierte Sprachgebrauch 'blond' als typischen Kollokator von 'Haar' fordert.

Über die App · Hintergründe · Quellen

Das Spiel

Das Projekt

Signifikation ist ein Bildungsprojekt, entwickelt von Joscha Fresmann. Ich bin mittlerweile Lehrkraft für Deutsch und Geschichte doch noch aus Studienzeiten hielt sich das Interesse an Sprachwissenschaft, Linguistik und insbesondere Korpuslinguistik. Die Idee zu diesem Projekt entstand aus meinem Interesse daran, wie Sprache funktioniert und gebraucht wird, unabhängig von offiziellen Regelwerken, sondern praktisch und musterhaft anhand konkreter Texte (mündlich sowie schriftsprachlich). Nicht zuletzt auch aus meinem Wunsch, dieses Wissen über Sprache spielerisch zugänglich zu machen. Grundlage der verschiedenen Spielmodi sind statistisch berechnete Kollokationen aus über zwei Milliarden Tokens deutschsprachiger Texte, die ich aus unterschiedlichen Kopora selbst zusammengetragen habe. (s. Verwendete Korpora).

Mein Ziel mit diesem Projekt ist es also, linguistische Konzepte kurzweilig erlebbar zu machen und auch so gut es geht, mit fachlichem Anspruch zu erklären. Das Projekt richtet sich damit an alle Sprachinteressierten, Studierenden, Schülerinnen und Schüler und Alle, die sich unsere Sprache mal ein bisschen genauer anschauen wollen.

Warum Signifikation?

Signifikation bezeichnet in Linguistik und Semiotik den Prozess der Bedeutungsgebung: das Verhältnis zwischen einem Zeichen (Signifikant) und dem, wofür es steht (Signifikat), die Aktualisierung von Bedeutung im konkreten Sprachgebrauch.1 Im weitesten Sinne ist Signifikation der Grundvorgang jedes Zeichenaustauschs: Ein Signal löst beim Empfänger eine Interpretationsreaktion aus.2 Das Lateinische sīgnificāre trägt diese Bedeutungen bereits in sich: anzeigen, andeuten, auf etwas hindeuten; meinen, bezeichnen.

Nicht zuletzt beruht die App und Auswertung der Daten auf dem logDice-Wert, die genau das misst: eine statistische Signifikanz zwischen Wörtern, eine im besten Fall bedeutsame und eindeutig nicht zufällige sprachliche Verbindung. Daneben steckt im Wort das Ende von Kollokation, die in diesem Projekt eine nicht ganz unwichtige Rolle spielt.

Was ist eine Kollokation?

Eine Kollokation ist eine einfache Wortverbindung, bei der zwei oder mehr Wörter überzufällig häufig gemeinsam auftreten, also häufiger als der bloße Zufall es erwarten ließe.3

Der Begriff wird in der Linguistik in unterschiedlichen Bedeutungen gebraucht. Eine engere Bestimmung geht auf F. J. Hausmann zurück: Kollokationen sind charakteristische Wortpaare, bei denen ein Wort (die Basis) ein bestimmtes anderes (den Kollokator) geradezu verlangt. Man sagt zum Beispiel eher blondes Haar und nicht gelbes Haar, nicht weil Letzteres falsch wäre, sondern weil der Sprachgebrauch blond als den gewohnten Partner von Haar einfordert.4 Kollokationen liegen damit zwischen ganz freien Verbindungen wie rotes Auto und festen Idiomen wie ins Gras beißen: inhaltlich begründet, aber sprachlich konventionalisiert.

Methodisch unterscheiden sich zwei Zugänge Kollokationen zu untersuchen. Statistische Verfahren suchen nach häufigen Nachbarschaften unabhängig von der Grammatik; syntaktische Ansätze beschränken sich auf bestimmte Wortartkombinationen wie Substantiv-Adjektiv oder Verb-Objekt.5 Das Projekt "Signifikation" folgt dem syntaktischen Weg. Alle Kollokationspaare entstammen syntaktischen Abhängigkeitsrelationen, die mithilfe eines Relationen-Mapping durch die Software spaCy ausgewertet wurden. (s. Die Daten). Fehler können bei der großen Anzahl an Daten natürlich passieren.

Die Methodik

Der logDice-Wert

Der logDice-Wert6 ist ein faszinierendes statistisches Assoziationsmaß, das quantifiziert, wie charakteristisch das gemeinsame Auftreten zweier Wörter im Vergleich zu ihrer zufällig zu erwartenden Kookkurrenz ist. Dieser Wert entscheidet quasi allein darüber, welche Kollokationen ganz oben in den Spielen auftauchen. Die ganz ganz simple Formel dafür lautet:

logDice(a, b) = 14 + log₂( 2 · f_ab / (f_a + f_b) )

Dabei bezeichnet f_ab die Häufigkeit des gemeinsamen Vorkommens (die Paarfrequenz), f_a und f_b die jeweiligen Einzelhäufigkeiten beider Wörter im Gesamtkorpus. Der Maximalwert 14 wird rein theoretisch erreicht, wenn beide Wörter ausschließlich miteinander auftreten. Werte ≥ 0 signalisieren schon eine überdurchschnittliche Assoziation; linguistisch aussagekräftige Kollokationen liegen in der Praxis meist zwischen 5 und 12.

Im Vergleich zu anderen Maßen wie dem Pointwise Mutual Information-Score (PMI) ist logDice robust gegenüber seltenen Wörtern: Ein Hapax legomenon (ein Wort, das in einem Korpus nur einmal vorkommt) kann keinen künstlich hohen Score erzielen, weil sein geringer f_a-Wert den Quotienten deckelt. Gegenüber der reinen Häufigkeit hat logDice den Vorteil, häufige Funktionswörter (sein, haben, und) zugunsten semantisch gehaltvoller Verbindungen zu benachteiligen. Die Ergebnisse des logDice-Wertes sind natürlich nur so gut, wie die zugrunde liegende Auswahl der Korpora es zulässt.

Die Daten

Die Kollokationsdaten werden durch eine eigene mehrstufige Extraktionspipeline aus offen lizenzierten deutschen Korpora gewonnen. Die Schritte im Überblick:

Korpusauswahl

Recherche und Auswahl geeigneter Quellen — ausschließlich Korpora unter offenen Lizenzen (CC BY, CC BY-SA, Gemeinfrei), die Weiterverarbeitung und Weitergabe der abgeleiteten Ergebnisse erlauben. Die Texte spannen einen Zeitraum vom Mittelhochdeutschen bis zur Gegenwartssprache.

Normalisierung

Alle Quellen werden in ein einheitliches JSONL-Format überführt und mit Metadaten angereichert: text, quelle, genre, epoche, jahr. Das Entstehungsjahr jedes Textes wird dabei bewahrt — Grundlage für die spätere Zeitreise-Auswertung nach Jahrzehnten.

Relationen-Mapping

Das Sprachmodell spaCy de_zdl_lg (ZDL/BBAW, trainiert auf dem HDT-Treebank mit DWDSmor-Lemmatisierung) verwendet das Universal-Dependencies-Tagset. Dessen Abhängigkeitslabels werden auf linguistisch interpretierbare Relationstypen abgebildet: nsubj → Subjekt, obj → Objekt, amod → Adjektivattribut, obl → Präpositionalgruppe, conj → Koordination u. a.

Dependenzanalyse und Tripel-Extraktion

Die Texte werden batchweise durch das Modell geschickt. Für jede erkannte syntaktische Abhängigkeit wird ein Tripel (Kopfwort-Lemma, Relation, Dependens-Lemma) zusammen mit Wortart und Entstehungsjahr in einer SQLite-Datenbank abgelegt. Ein Checkpoint-Mechanismus protokolliert abgeschlossene Batches, sodass die mehrtägige Verarbeitung bei Unterbrechungen ohne Datenverlust fortgesetzt werden kann.

Frequenz-Aggregation

Aus der Tripel-Datenbank werden Unigramm-Häufigkeiten f_a und f_b sowie Paarfrequenzen f_ab berechnet. Die Zählung erfolgt getrennt nach Wortart und Relationstyp — das ist entscheidend, um lexikalische Ambiguität zu kontrollieren: laufen (Verb) und Laufen (Substantiv) teilen dasselbe Lemma, haben aber grundlegend verschiedene Kollokationsprofile. Ohne diese Trennung würden ihre Frequenzen zusammengefasst, was den logDice-Score für beide verfälscht. Dasselbe gilt für syntaktische Rollen: Ein Wort, das typischerweise als Subjekt auftritt, kann als Objekt ein ganz anderes Kollokationsverhalten zeigen. Nur durch die kombinierte Kontrolle nach Wortart und Relation lassen sich sprachlich sinnvolle Assoziationsmaße berechnen.

logDice-Berechnung und Ranking

Für jedes Kollokationspaar wird der logDice-Score ermittelt (s. o.) und ein nach Assoziation abgestuftes Ranking erstellt. Paare mit f_ab ≥ 3 und positivem logDice-Wert werden in der Lookup-Datenbank wortprofil.db gespeichert und der App per SQLite-Query zur Verfügung gestellt.

Zusätzlich zur Kollokationsdatenbank entsteht aus denselben Korpora ein Volltextindex (SQLite FTS5) für die Belegsuche. Beim Anklicken einer Kollokation werden Originalsätze mit beiden Wörtern gesucht und mit vollständiger Quellenangabe und Lizenzhinweis angezeigt. Der Index umfasst über 50 Millionen Sätze aus neun Korpora. Für die Zeitreise-Runde werden die Tripel nach Entstehungsjahrzehnt gruppiert, sodass Verschiebungen im Kollokationsverhalten über Jahrhunderte sichtbar werden. Die Wort-Zwilling-Runde vergleicht die logDice-Profile zweier ähnlicher Wörter direkt gegeneinander.

Die Quellen

Verwendete Korpora

Korpora ohne Belegeindex fließen in das Wortprofil ein, werden aktuell aber nicht für den Textbeleg-Index verwendet (da historische Sprache für Spieler eher schwer zugänglich ist).

Presse & Nachrichtentexte535 Mio. · 24 %

Politik & Parlament565 Mio. · 26 %

Archivkorpora (17.–20. Jh.)926 Mio. · 42 %

Belletristik99 Mio. · 5 %

Sachtext & Recht64 Mio. · 3 %

Gesamt: 2,19 Mrd. Tokens aus 15 Korpora

Korpus	Inhalt	Lizenz	Tokens	Quelle
Wortschatz-Korpus Leipzig	Zeitungsnachrichten (deu_news, deu_newscrawl)	CC BY	535 Mio.	Universität Leipzig
Bundestag-Protokolle (DIP)	Plenarprotokolle des Deutschen Bundestags (XML + PDF)	Datenlizenz Deutschland BY 2.0	298 Mio.	dip.bundestag.de
German Political Speeches Corpus	Politische Reden (Bundesregierung, 1984–2019)	CC BY-SA	11 Mio.	Zenodo 3611246
Gesetze im Internet	Bundesgesetze und -verordnungen	Gemeinfrei § 5 UrhG	19 Mio.	gesetze-im-internet.de
Wikibooks auf Deutsch	Freie Lehr- und Sachbücher	CC BY-SA 3.0	28 Mio.	Zenodo 8081095
Wikivoyage auf Deutsch	Freier Reiseführer	CC BY-SA 3.0	17 Mio.	Zenodo 7568517
DiBiLit	Digitale Bibliothek Literatur (Belletristik, 19.–20. Jh.)	CC BY-SA 4.0	93 Mio.	Zenodo 5786725
Der Neue Pitaval	Kriminalgeschichten (1842–1890)	CC BY-SA 4.0	6 Mio.	Zenodo 6682897
Reichstagsprotokolle	Stenographische Berichte des Deutschen Reichstags (1867–1942) · nur Wortprofil	CC BY-SA 4.0	256 Mio.	German Commons
DiBiPhil	Digitale Bibliothek Philosophie · nur Wortprofil	CC BY-SA 4.0	13 Mio.	German Commons
Deutsches Textarchiv – Kernkorpus & Erweiterungen	Belletristische, wissenschaftliche und Gebrauchstexte (17.–20. Jh.) · nur Wortprofil	CC BY-SA 4.0	320 Mio.	deutschestextarchiv.de
DTA Sondersammlungen	Edition Humboldt Digital, Jean-Paul-Briefe, Dinglers Polytechnisches Journal, Patiententexte, Novellenschatz, Soldatenbriefe, Stimm-los · nur Wortprofil	CC BY-SA 4.0	81 Mio.	DTA GitHub
GEI-Digital	Historische Schulbücher (17.–20. Jh.) · nur Wortprofil	Public Domain	506 Mio.	Zenodo 15729290
Referenzkorpus Frühneuhochdeutsch	Frühneuhochdeutsche Texte (1350–1650) · nur Wortprofil	CC BY-SA 4.0	3 Mio.	Ruhr-Universität Bochum
Referenzkorpus Mittelhochdeutsch	Mittelhochdeutsche Texte (1050–1350) · nur Wortprofil	CC BY-SA 4.0	3 Mio.	Ruhr-Universität Bochum

Tokens gezählt als Leerzeichen-getrennte Wortformen (inkl. Interpunktion).

Literatur

Saussure, F. de (1916): Cours de linguistique générale. Paris: Payot, S. 97–103.↑
Eco, U. (1972): Einführung in die Semiotik. München: Fink, S. 26.↑
Perkuhn, R. / Keibel, H. / Kupietz, M. (2012): Korpuslinguistik. Fink, Paderborn, S. 101.↑
Hausmann, F. J. (2003): Was sind eigentlich Kollokationen? In: Steyer, K. (Hrsg.): Wortverbindungen — mehr oder weniger fest. Berlin/New York: de Gruyter, S. 309–334.↑
Carstensen, K.-U. u. a. (Hrsg.) (2010): Computerlinguistik und Sprachtechnologie. Spektrum, Heidelberg, S. 490.↑
Rychlý, P. (2008): A Lexicographer-Friendly Association Score. In: Proceedings of Recent Advances in Slavonic Natural Language Processing (RASLAN 2008), S. 6–9.↑