← Zurück zur App

Tägliches Wortspiel · Linguistik

Signifikation [zɪɡnɪfɪkaˈtsi̯oːn]

Über die App · Hintergründe · Quellen


Das Projekt

Signifikation ist ein Bildungsprojekt, entwickelt von Joscha Fresmann. Ich bin mittlerweile Lehrkraft für Deutsch und Geschichte doch noch aus Studienzeiten hielt sich das Interesse an Sprachwissenschaft, Linguistik und insbesondere Korpuslinguistik. Die Idee zu diesem Projekt entstand aus meinem Interesse daran, wie Sprache funktioniert und gebraucht wird, unabhängig von offiziellen Regelwerken, sondern praktisch und musterhaft anhand konkreter Texte (mündlich sowie schriftsprachlich). Nicht zuletzt auch aus meinem Wunsch, dieses Wissen über Sprache spielerisch zugänglich zu machen. Grundlage der verschiedenen Spielmodi sind statistisch berechnete Kollokationen aus über zwei Milliarden Tokens deutschsprachiger Texte, die ich aus unterschiedlichen Kopora selbst zusammengetragen habe. (s. Verwendete Korpora).

Mein Ziel mit diesem Projekt ist es also, linguistische Konzepte kurzweilig erlebbar zu machen und auch so gut es geht, mit fachlichem Anspruch zu erklären. Das Projekt richtet sich damit an alle Sprachinteressierten, Studierenden, Schülerinnen und Schüler und Alle, die sich unsere Sprache mal ein bisschen genauer anschauen wollen.

Warum Signifikation?

Signifikation bezeichnet in Linguistik und Semiotik den Prozess der Bedeutungsgebung: das Verhältnis zwischen einem Zeichen (Signifikant) und dem, wofür es steht (Signifikat), die Aktualisierung von Bedeutung im konkreten Sprachgebrauch.1 Im weitesten Sinne ist Signifikation der Grundvorgang jedes Zeichenaustauschs: Ein Signal löst beim Empfänger eine Interpretationsreaktion aus.2 Das Lateinische sīgnificāre trägt diese Bedeutungen bereits in sich: anzeigen, andeuten, auf etwas hindeuten; meinen, bezeichnen.

Nicht zuletzt beruht die App und Auswertung der Daten auf dem logDice-Wert, die genau das misst: eine statistische Signifikanz zwischen Wörtern, eine im besten Fall bedeutsame und eindeutig nicht zufällige sprachliche Verbindung. Daneben steckt im Wort das Ende von Kollokation, die in diesem Projekt eine nicht ganz unwichtige Rolle spielt.

Was ist eine Kollokation?

Eine Kollokation ist eine einfache Wortverbindung, bei der zwei oder mehr Wörter überzufällig häufig gemeinsam auftreten, also häufiger als der bloße Zufall es erwarten ließe.3

Der Begriff wird in der Linguistik in unterschiedlichen Bedeutungen gebraucht. Eine engere Bestimmung geht auf F. J. Hausmann zurück: Kollokationen sind charakteristische Wortpaare, bei denen ein Wort (die Basis) ein bestimmtes anderes (den Kollokator) geradezu verlangt. Man sagt zum Beispiel eher blondes Haar und nicht gelbes Haar, nicht weil Letzteres falsch wäre, sondern weil der Sprachgebrauch blond als den gewohnten Partner von Haar einfordert.4 Kollokationen liegen damit zwischen ganz freien Verbindungen wie rotes Auto und festen Idiomen wie ins Gras beißen: inhaltlich begründet, aber sprachlich konventionalisiert.

Methodisch unterscheiden sich zwei Zugänge Kollokationen zu untersuchen. Statistische Verfahren suchen nach häufigen Nachbarschaften unabhängig von der Grammatik; syntaktische Ansätze beschränken sich auf bestimmte Wortartkombinationen wie Substantiv-Adjektiv oder Verb-Objekt.5 Das Projekt "Signifikation" folgt dem syntaktischen Weg. Alle Kollokationspaare entstammen syntaktischen Abhängigkeitsrelationen, die mithilfe eines Relationen-Mapping durch die Software spaCy ausgewertet wurden. (s. Die Daten). Fehler können bei der großen Anzahl an Daten natürlich passieren.


Der logDice-Wert

Der logDice-Wert6 ist ein faszinierendes statistisches Assoziationsmaß, das quantifiziert, wie charakteristisch das gemeinsame Auftreten zweier Wörter im Vergleich zu ihrer zufällig zu erwartenden Kookkurrenz ist. Dieser Wert entscheidet quasi allein darüber, welche Kollokationen ganz oben in den Spielen auftauchen. Die ganz ganz simple Formel dafür lautet:

logDice(a, b)  =  14 + log2( 2 · fab / (fa + fb) )

Dabei bezeichnet fab die Häufigkeit des gemeinsamen Vorkommens (die Paarfrequenz), fa und fb die jeweiligen Einzelhäufigkeiten beider Wörter im Gesamtkorpus. Der Maximalwert 14 wird rein theoretisch erreicht, wenn beide Wörter ausschließlich miteinander auftreten. Werte ≥ 0 signalisieren schon eine überdurchschnittliche Assoziation; linguistisch aussagekräftige Kollokationen liegen in der Praxis meist zwischen 5 und 12.

Im Vergleich zu anderen Maßen wie dem Pointwise Mutual Information-Score (PMI) ist logDice robust gegenüber seltenen Wörtern: Ein Hapax legomenon (ein Wort, das in einem Korpus nur einmal vorkommt) kann keinen künstlich hohen Score erzielen, weil sein geringer fa-Wert den Quotienten deckelt. Gegenüber der reinen Häufigkeit hat logDice den Vorteil, häufige Funktionswörter (sein, haben, und) zugunsten semantisch gehaltvoller Verbindungen zu benachteiligen. Die Ergebnisse des logDice-Wertes sind natürlich nur so gut, wie die zugrunde liegende Auswahl der Korpora es zulässt.

Die Daten

Die Kollokationsdaten werden durch eine eigene mehrstufige Extraktionspipeline aus offen lizenzierten deutschen Korpora gewonnen. Die Schritte im Überblick:

Korpusauswahl
Recherche und Auswahl geeigneter Quellen — ausschließlich Korpora unter offenen Lizenzen (CC BY, CC BY-SA, Gemeinfrei), die Weiterverarbeitung und Weitergabe der abgeleiteten Ergebnisse erlauben. Die Texte spannen einen Zeitraum vom Mittelhochdeutschen bis zur Gegenwartssprache.
Normalisierung
Alle Quellen werden in ein einheitliches JSONL-Format überführt und mit Metadaten angereichert: text, quelle, genre, epoche, jahr. Das Entstehungsjahr jedes Textes wird dabei bewahrt — Grundlage für die spätere Zeitreise-Auswertung nach Jahrzehnten.
Relationen-Mapping
Das Sprachmodell spaCy de_zdl_lg (ZDL/BBAW, trainiert auf dem HDT-Treebank mit DWDSmor-Lemmatisierung) verwendet das Universal-Dependencies-Tagset. Dessen Abhängigkeitslabels werden auf linguistisch interpretierbare Relationstypen abgebildet: nsubj → Subjekt, obj → Objekt, amod → Adjektivattribut, obl → Präpositionalgruppe, conj → Koordination u. a.
Dependenzanalyse und Tripel-Extraktion
Die Texte werden batchweise durch das Modell geschickt. Für jede erkannte syntaktische Abhängigkeit wird ein Tripel (Kopfwort-Lemma, Relation, Dependens-Lemma) zusammen mit Wortart und Entstehungsjahr in einer SQLite-Datenbank abgelegt. Ein Checkpoint-Mechanismus protokolliert abgeschlossene Batches, sodass die mehrtägige Verarbeitung bei Unterbrechungen ohne Datenverlust fortgesetzt werden kann.
Frequenz-Aggregation
Aus der Tripel-Datenbank werden Unigramm-Häufigkeiten fa und fb sowie Paarfrequenzen fab berechnet. Die Zählung erfolgt getrennt nach Wortart und Relationstyp — das ist entscheidend, um lexikalische Ambiguität zu kontrollieren: laufen (Verb) und Laufen (Substantiv) teilen dasselbe Lemma, haben aber grundlegend verschiedene Kollokationsprofile. Ohne diese Trennung würden ihre Frequenzen zusammengefasst, was den logDice-Score für beide verfälscht. Dasselbe gilt für syntaktische Rollen: Ein Wort, das typischerweise als Subjekt auftritt, kann als Objekt ein ganz anderes Kollokationsverhalten zeigen. Nur durch die kombinierte Kontrolle nach Wortart und Relation lassen sich sprachlich sinnvolle Assoziationsmaße berechnen.
logDice-Berechnung und Ranking
Für jedes Kollokationspaar wird der logDice-Score ermittelt (s. o.) und ein nach Assoziation abgestuftes Ranking erstellt. Paare mit fab ≥ 3 und positivem logDice-Wert werden in der Lookup-Datenbank wortprofil.db gespeichert und der App per SQLite-Query zur Verfügung gestellt.

Zusätzlich zur Kollokationsdatenbank entsteht aus denselben Korpora ein Volltextindex (SQLite FTS5) für die Belegsuche. Beim Anklicken einer Kollokation werden Originalsätze mit beiden Wörtern gesucht und mit vollständiger Quellenangabe und Lizenzhinweis angezeigt. Der Index umfasst über 50 Millionen Sätze aus neun Korpora. Für die Zeitreise-Runde werden die Tripel nach Entstehungsjahrzehnt gruppiert, sodass Verschiebungen im Kollokationsverhalten über Jahrhunderte sichtbar werden. Die Wort-Zwilling-Runde vergleicht die logDice-Profile zweier ähnlicher Wörter direkt gegeneinander.


Verwendete Korpora

Korpora ohne Belegeindex fließen in das Wortprofil ein, werden aktuell aber nicht für den Textbeleg-Index verwendet (da historische Sprache für Spieler eher schwer zugänglich ist).

Presse & Nachrichtentexte535 Mio. · 24 %
Politik & Parlament565 Mio. · 26 %
Archivkorpora (17.–20. Jh.)926 Mio. · 42 %
Belletristik99 Mio. · 5 %
Sachtext & Recht64 Mio. · 3 %

Gesamt: 2,19 Mrd. Tokens aus 15 Korpora

Korpus Inhalt Lizenz Tokens Quelle
Wortschatz-Korpus Leipzig Zeitungsnachrichten (deu_news, deu_newscrawl) CC BY 535 Mio. Universität Leipzig
Bundestag-Protokolle (DIP) Plenarprotokolle des Deutschen Bundestags (XML + PDF) Datenlizenz Deutschland BY 2.0 298 Mio. dip.bundestag.de
German Political Speeches Corpus Politische Reden (Bundesregierung, 1984–2019) CC BY-SA 11 Mio. Zenodo 3611246
Gesetze im Internet Bundesgesetze und -verordnungen Gemeinfrei § 5 UrhG 19 Mio. gesetze-im-internet.de
Wikibooks auf Deutsch Freie Lehr- und Sachbücher CC BY-SA 3.0 28 Mio. Zenodo 8081095
Wikivoyage auf Deutsch Freier Reiseführer CC BY-SA 3.0 17 Mio. Zenodo 7568517
DiBiLit Digitale Bibliothek Literatur (Belletristik, 19.–20. Jh.) CC BY-SA 4.0 93 Mio. Zenodo 5786725
Der Neue Pitaval Kriminalgeschichten (1842–1890) CC BY-SA 4.0 6 Mio. Zenodo 6682897
Reichstagsprotokolle Stenographische Berichte des Deutschen Reichstags (1867–1942) · nur Wortprofil CC BY-SA 4.0 256 Mio. German Commons
DiBiPhil Digitale Bibliothek Philosophie · nur Wortprofil CC BY-SA 4.0 13 Mio. German Commons
Deutsches Textarchiv – Kernkorpus & Erweiterungen Belletristische, wissenschaftliche und Gebrauchstexte (17.–20. Jh.) · nur Wortprofil CC BY-SA 4.0 320 Mio. deutschestextarchiv.de
DTA Sondersammlungen Edition Humboldt Digital, Jean-Paul-Briefe, Dinglers Polytechnisches Journal, Patiententexte, Novellenschatz, Soldatenbriefe, Stimm-los · nur Wortprofil CC BY-SA 4.0 81 Mio. DTA GitHub
GEI-Digital Historische Schulbücher (17.–20. Jh.) · nur Wortprofil Public Domain 506 Mio. Zenodo 15729290
Referenzkorpus Frühneuhochdeutsch Frühneuhochdeutsche Texte (1350–1650) · nur Wortprofil CC BY-SA 4.0 3 Mio. Ruhr-Universität Bochum
Referenzkorpus Mittelhochdeutsch Mittelhochdeutsche Texte (1050–1350) · nur Wortprofil CC BY-SA 4.0 3 Mio. Ruhr-Universität Bochum

Tokens gezählt als Leerzeichen-getrennte Wortformen (inkl. Interpunktion).

Literatur

  1. Saussure, F. de (1916): Cours de linguistique générale. Paris: Payot, S. 97–103.
  2. Eco, U. (1972): Einführung in die Semiotik. München: Fink, S. 26.
  3. Perkuhn, R. / Keibel, H. / Kupietz, M. (2012): Korpuslinguistik. Fink, Paderborn, S. 101.
  4. Hausmann, F. J. (2003): Was sind eigentlich Kollokationen? In: Steyer, K. (Hrsg.): Wortverbindungen — mehr oder weniger fest. Berlin/New York: de Gruyter, S. 309–334.
  5. Carstensen, K.-U. u. a. (Hrsg.) (2010): Computerlinguistik und Sprachtechnologie. Spektrum, Heidelberg, S. 490.
  6. Rychlý, P. (2008): A Lexicographer-Friendly Association Score. In: Proceedings of Recent Advances in Slavonic Natural Language Processing (RASLAN 2008), S. 6–9.