Lotterie-Statistik – Markov-Ketten

portrait style illustration of Russian mathematician

Der Ursprung der Markov-Ketten

portrait style illustration of Russian mathematician

Die Bezeichnung „Markov-Ketten“ ehrt den herausragenden russischen Mathematiker Andrei Andrejewitsch Markov, der sein Leben der Erforschung zufälliger Prozesse widmete und die Grundlagen dieser Wissenschaft legte.

In den letzten Jahren werden Markov-Ketten in den unterschiedlichsten Bereichen diskutiert: in Webtechnologien zur Vorhersage der nächsten Seite, bei der Analyse literarischer Texte und sogar bei der Wahl der Taktik von Fußballmannschaften.

Wer zuvor nicht mit diesem Konzept in Berührung kam, hält es oft für kompliziert und unzugänglich.

mathematical chain links transforming into lottery balls

Die Einfachheit hinter der Komplexität

In Wirklichkeit ist alles anders. Eine Markov-Kette ist die einfachste Variante einer Folge zufälliger Ereignisse. Trotz ihrer Einfachheit ermöglicht sie die Beschreibung recht komplexer Phänomene.

Selbst wenn ein reales physikalisches System diesem Prinzip nicht perfekt entspricht, bleibt das Modell der Markov-Kette dank seiner Prägnanz praktisch. Deshalb finden Markov-Ketten überraschende Anwendungen.

Markov-Ketten in der Textanalyse

Die Herausforderung

Auf den ersten Blick scheint dies sinnlos: Wörter in einem echten Text folgen einer streng festgelegten Reihenfolge, und die Wahrscheinlichkeit des Auftretens des nächsten Wortes hängt nicht nur vom vorherigen ab, sondern von der gesamten Vorgeschichte.

Wenn man nach dieser Regel einen neuen Text konstruiert, wird er nicht sinnvoll, verwandelt sich aber auch nicht in eine chaotische Ansammlung von Wörtern.

Das Ergebnis

In einer von Markov-Ketten generierten Sprache wirken einzelne Phrasen oft vernünftig, jedoch entsteht keine zusammenhängende Erzählung.

Das Ergebnis erinnert an die Sprache einer Person mit psychischer Störung.

fragmented text floating in space
computer screen showing algorithm code

Anwendungen im Internet

→Pseudo-Content-Produktion

Website-Betreiber streben danach, Traffic anzuziehen und Positionen in Suchmaschinen zu verbessern, indem sie Seiten mit populären Schlüsselwörtern füllen.

→Täuschung von Algorithmen

Suchalgorithmen haben gelernt, lebendigen Text von zusammenhanglosem Wortmüll zu unterscheiden, daher fluten Betrüger Websites mit Bergen von Maschinentext, der von Markov-Generatoren erzeugt wurde.

→Nützliche Anwendungen

Überprüfung der Echtheit von Dokumenten, Feststellung der Urheberschaft, Sprachsynthese und andere Aufgaben.

Markov-Ketten und Lotterien

Für uns ist wichtiger: Wie hängen Markov-Ketten mit Lotterien zusammen und eignen sie sich zur Vorhersage von Zahlen?

Zwischen Ziehungen

Offenbar ist es nutzlos, die Folge von Ziehungen auf diese Weise zu modellieren. Was mit den Kugeln in einer Ziehung geschah, beeinflusst die nächste nicht: Nach Abschluss der Ziehung werden die Kugeln entfernt, und für die neue Ziehung werden sie in vorgegebener Reihenfolge in die Lostrommel gelegt, wodurch die Verbindung zur vorherigen verschwindet.

Innerhalb einer Ziehung

Anders verhält es sich mit der Reihenfolge, in der die Kugeln innerhalb einer Ziehung herausspringen. Jede folgende Kugel erscheint genau deshalb, weil sich die Lostrommel nach der vorherigen verändert hat. Die Folge der gezogenen Nummern bildet also eine Markov-Kette, und unter dieses Schema lässt sich ein Modell anpassen.

Die Übergangsmatrix

Für eine solche Kette wird üblicherweise eine Übergangstabelle erstellt: Die Zelle pij zeigt, mit welcher Wahrscheinlichkeit das System vom Zustand Si zu Sj wechselt.

Wenn es genau N zulässige Positionen gibt, wird die Tabelle quadratisch N×N; in Zeile i sind die Chancen aufgelistet, von Si zu S1, S2 … SN zu gelangen.

mathematical transition matrix visualization
lottery balls inside transparent drum,

Die Herausforderung bei Zahlenlotterien

Bei der Arbeit mit Zahlenlotterien entsteht eine ernsthafte Barriere. Nachdem die nächste Kugel gefallen ist, geht das Gerät in eine neue Position über, aber welche genau – das wissen wir nicht.

1

Sichtbares Ereignis

Das Einzige, was sichtbar ist: die Nummer der Kugel.

2

Verborgene Zustände

Die übrigen Kugeln in der Trommel können sich auf Tausende verschiedene Weisen anordnen, und jede dieser Anordnungen ist ein separater Zustand.

3

Komplexität

Einem beobachteten Ereignis entspricht also eine ganze Schicht verborgener Zustände.

Gruppierte Übergangstabellen

Daher lässt sich nur eine Übergangstabelle zwischen Gruppen erstellen, nicht zwischen einzelnen Konfigurationen. Die Wahrscheinlichkeiten darin werden über alle verborgenen Varianten gemittelt, und der Nutzen des reinen Markov-Modells für Zahlenlotterien sinkt dadurch merklich.

Dennoch erhalten in jeder Gruppe jene Zustände das größte Gewicht, deren Übergangswahrscheinlichkeiten höher sind als die anderen, und insgesamt bleibt das Modell brauchbar.

Wichtig: Die Mittelung über verborgene Zustände reduziert die Präzision, macht das Modell aber praktisch anwendbar.

Markov-Ketten höherer Ordnung

Um die Genauigkeit zu erhöhen, werden in die Berechnung nicht ein, sondern zwei oder sogar drei vorherige Kugelziehungen einbezogen. Anstelle von Informationen über den aktuellen Zustand wird Information über seine Verbindung mit den vorherigen Ergebnispaaren verwendet.

Erster Ordnung

Einfachste Form: nur das vorherige Ereignis zählt. Für Lotterie „20 aus 80″ genügen einige hundert Ziehungen.

Zweiter Ordnung

Berücksichtigt zwei vorherige Ereignisse. Genauere Prognosen, aber deutlich aufwendigere Berechnungen. Benötigt über zehntausend Ziehungen.

Höhere Ordnungen

Theoretisch möglich, aber praktisch kaum umsetzbar aufgrund des enormen Datenbedarfs.

Praktische Empfehlungen

Datenverfügbarkeit

Weltweit gibt es nur wenige Lotterien mit ausreichender Statistik für Modelle zweiter Ordnung.

Zeitliche Veränderungen

Daten werden über Jahre gesammelt, in denen sich Kugelsätze und Lostrommeln mehrfach ändern.

Optimale Lösung

Rationaler ist es, bei Ketten erster Ordnung zu bleiben und für die Matrix nur Ziehungen des letzten Jahres oder der letzten zwei Jahre zu verwenden.

Die Hauptschwierigkeit liegt nicht so sehr in der Komplexität der Berechnungen, sondern im Umfang der Ausgangsdaten. Daher empfiehlt sich ein pragmatischer Ansatz mit aktuellen, relevanten Daten.

modern data analytics dashboard with lottery statistics
Teile deine Liebe

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert