Die Tabelle lügt nicht.  In der Rangliste der groβen Fuβballplatitüden mag sich diese Aussage vielleicht nicht auf den Champions-League-Rängen befinden – die sind fest in Sepp Herbergers Hand – aber für einen Platz in der Europa-League sollte es schon reichen. Und wie die Klassiker des Weltmeistertrainers von 1954 ist der Satz auf den ersten Blick auch absolut korrekt: Die jeweilige Bundesligatabelle ist die akkurate Zusammenfassung der bisherigen Saison gemäβ der gegebenen Punktverteilungsregeln, da gibt es wenig dran zu rütteln. Wahr ist aber auch, dass solch eine Teilsaison-Übersicht im Prinzip niemanden interessiert. Der HSV wird keine CL-Millionen einheimsen und nächstes Jahr tolle Spiele in London und Madrid bestreiten, nur weil man am 2. Spieltag mal Tabellendritter war und der FC Köln muss (noch) nicht die Anfahrtswege nach Sandhausen und Aue studieren, obwohl er nach 11 Spieltagen mit nur 2 Punkten Letzter ist. Die einzig wirklich relevante Tabelle innerhalb einer Saison ist die nach dem letzten Spieltag. Der Grund warum Fuβballfreunde trotzdem nach jedem Wochenende intensiv in die Tabelle starren, ist daher weniger ihr Interesse an einer Übersicht über die bereits vergangene Saison, sondern vielmehr um eine Prognose für die Abschlusstabelle zu erhalten, was die Frage, ob die Tabelle vielleicht doch manchmal lügt in einem neuen Licht erscheinen lässt. Wir wollen uns daher in diesem Artikel mit der Frage beschäftigen, welche Prognosekraft die jeweilige Tabelle für den Saisonabschluss hat.

Es bedarf dabei keines mathematischen Genies um festzustellen, dass sich diese Prognosekraft über die Saison ändert. Die Tabelle nach Spieltag 1 sagt wenig aus, die nach Spieltag 33 fast alles, aber können wir diesen Anstieg an Information quantifizieren und somit etwas mehr dazu sagen, ab wann es sich wirklich lohnt die Tabelle genauer zu studieren? Ja, können wir (vgl. Obama, 2008). Natürlich haben wir keine Ahnung wie sich die Saison 2017/18 weiterentwickeln  und die Tabelle sich nach dem 11. Spieltag  noch ändern wird, aber wir können auf die 54 vergangenen Spielzeiten zurückschauen und studieren, wie sich dort die Spieltagstabellen allmählich der Abschlusstabelle angenähert haben. Das statistische Hilfsmittel, das wir dazu benutzen werden ist die Korrelation r (um genau zu sein wir benutzen im folgenden die Spearmansche Rang-Korrelation),  eine Zahl zwischen -1 und 1, welche die Ähnlichkeit zwischen 2 Tabellen misst. Ist r nahe an 1, so sind die Tabellen fast identisch;liegt es nahe -1, ist die eine Tabelle die Umkehrung der anderen; für r = 0 gibt es keinen Zusammenhang zwischen beiden Tabellen. Quadriert man die Korrelation so lässt sich r2 als der Prozentsatz an Varibilität interpretieren, die die eine Tabelle in der anderen erklärt bzw. als ein Mass der Prognosekraft, welche die eine Tabelle für die anderen hat. Man kann auch einen direkten Zusammenhang zu dem typischen Abstand (TA, in diesem Fall als quadratisches Mittel errechnet, falls das wen interessiert) zwischen den Plätzen eines Vereins in der Spieltagstabelle und der Abschlusstabelle herstellen. Die folgende Tabelle zeigt ein paar Beispielwerte:

 

r2

r

TA

0%

0

7.34

10%

0.32

6.07

20%

0.45

5.46

30%

0.55

4.93

40%

0.63

4.45

50%

0.71

3.97

70%

0.84

2.97

80%

0.89

2.38

90%

0.95

1.66

100%

1

0

 Um diese Zahlen etwas besser einschätzen zu können, ist es hilfreich den Extremfall einer einer völlig ausgeglichenen Liga, wo jedes Team jedes andere mit gleicher Wahrscheinlichkeit schlagen kann, zu studieren. Auch in solch einer Liga würden nicht alle Teams am Ende punkt und torgleich da stehen, sondern es gäbe einen Meister und Absteiger usw. Allerdings wäre die Tabelle eine rein zufällige, die genauso gut hätte ermittelt werden können, indem man den 18 Vereinen mit verbundenen Augen die Zahlen 1 bis 18 zugeordnet hätte. In solch einer Liga hätten z.B die Hinrunden und Rückrundentabelle absolut absolut keinen Zusammenhang haben  (r=0),  und damit  also einen typischen Abstand von 7.34 Tabellenplätzen für jedes Team. Im Vergleich mit der Abschlusstabelle würden die einzelnen Spieltagstabellen natürlich immer noch einen Zusammenhang zeigen, da beide Tabellen teilweise auf denselben Spielen beruhen. Dieser Zusammenhang lässt sich jedoch leicht berechnen: Das zu erwartende r2  ist in diesem Fall identisch mit dem Prozentsatz der absolvierten Spiele, d.h. nach einem Drittel der Saison erwartet man einen r2 Wert von 33%, zur Winterpause von 50%.

Da es im wahren Leben aber kaum eine völlig ausgeglichene Liga gibt werden die wirklichen Werte über diesen Zahlen liegen. Um zu schauen wie diese realen Werte aussehen, studieren wir die bisherigen BL-Spieljahre. Zwar kann man bei der Online-Seiten des Kicker (oder ähnlicher Anbieter) jedes Ergebnis und jede Tabelle seit 1963 finden, aber diese Information in computer-freundliche Form zu verpacken, ist eine Sisisphus-Aufgabe. Die gute Nachricht ist, dass irgendeine gute Seele das schon mal gemacht hat; die schlechte Nachricht ist, dass die Daten leider nur bis zur Saison 2008/2009 reichen (sie sind teil des R-packages „vcd“, siehe https://www.rdocumentation.org/packages/vcd/versions/1.4-3/topics/Bundesliga).

Ich habe mich in meiner Analyse dabei auf die Jahre mit 18 Mannschaften beschränkt, was immerhin noch 43 Spielzeiten übrig lässt. Was zunächst mal auffällt, ist, dass es groβe Unterschiede von Saison zu Saison gibt: in manchen Jahren trennt sich die Spreu vom Weizen recht früh und die Tabelle wird bald aussagekräftig, in anderen Jahren war die Liga erheblich enger und die Fluktuationen in der Tabelle damit höher. In dieser 2. Kategorie besonders auffällig ist die Saison 66/67 (Borussias 2. Jahr in der Bundesliga). Nach 11 Spieltagen betrug das r20.4% im Vergleich zu den 11/34 = 32.3% die man schon beim oben skizzierten Extremfall einer  ausgeglichenen zufälligen Liga erwarten würde. Der Titelverteidiger und spätere Vizemeister 1860 München z.B stand an diesem Spieltag auf dem vorletzten Rang, wohingegen der spätere Absteiger Rot-Weiβ Essen sich noch auf dem fünften Platz sonnte und vom UEFA-Pokal geträumt hätte, hätte es den damals schon gegeben. Meister wurde am Ende Eintracht Braunschweig mit nach heutiger Rechnung 60 Punkten, einer Zahl die typischerweise für Platz 4 reicht. Dass die 11 kleinen (späteren) Jägermeister nur Zufallsmeister wurden, sollte man auch bis heute rund um Braunschweig nicht allzu laut aussprechen, aber die Tatsache, dass man in der Vorsaison Platz 10 und im Folgejahr Platz 9 belegte, deutet schon an, dass die Eintracht damals zum Titel kam wie die Jungfrau zum Kinde oder – um es zeitgemäβ zu formulieren -  wie der FC Köln in die Europa-League.

Am anderen Ende der Skala gibt es dann z.B. die Saison 2001/2002 als nach elf Spieltagen schon 83% der Abschluβtabelle klar waren. Zwar gab es damals einen bis zum letzten Spieltag spannenden Titelkampf zwischen Dortmund, Leverkusen und Bayern, aber alle 3 Teams standen auch schon nach einem Saisondrittel unter den ersten vier. Hier deutet sich auch ein gewisser Schwachpunkt in unseren Berechnungen an. Wenn wir Unterschiede in den Tabellen betrachten geht ein Abfall von Platz 1 auf 4 mit dem gleichen Gewicht ein wie einer von Platz 8 auf 11 oder von Platz 15 auf 18, wohingegen für jeden Fuβballkenner dieses natürlich 3 sehr verschiedene Szenarien sind: der Unterschied zwischen 8 und 11 is komplett irrelevant, während die 3 Plätze Unterschied in den anderen beiden Fällen höchst gravierend sind. Das könnte man evtl. mit einer Transformation der Daten beheben, aber rein mathematisch würde das alles eine Runde komplizierter gestalten. 

Bislang haben wir die realen Daten verglichen mit einer fiktiven zufälligen/völlig ausgeglichenen Liga. Nun ist es allerdings so, dass auch ein kompletter Fuβballbanause in der Lage sein sollte, die Abschluβtabelle besser vorhersagen zu können als durch pures Raten, in dem er einfach die Tabelle der Vorsaison hernimmt und die drei Aufsteiger auf die letzten Plätze setzt. Macht man das für jede Saison in unserem Datensatz, errechnet man ein durchschnittliches r2 von 48.3%. In der Grafik unten zeigen die blauen Punkte das durchschnittliche r2 (Prognosekraft) für Spieltag 1 bis 34 (errechnet aus 43 Spieljahren mit 18 Mannschaften zwischen 65/66- 08/09). Die gestrichelte Linie zeigt den ewarteten Wert für den Fall einer komplett ausgeglichenen zufälligen Liga und die rote horizontale Linie den Durchschnittswert, den man mit der Vorjahrestabelle erziehlen würde. Man sieht dass von Anfang an die Spieltagstabellen besser korrelieren als man es  bei einer völlig ausgeglichenen Liga erwarten würde, aber erst nach Spieltag 10 hat die Spieltagstabelle zum ersten Mal mehr Aussagekraft als die Vorjahrestabelle.

 

 

Wir sind also jetzt genau in dem Stadium der Saison, wo es erstmals sinnvoll erscheint,  auf die Tabelle zu schauen, auch wenn das Beispiel 65/66 zeigt, dass sich im Extremfall bis zum Saisonende noch fast alles ändern kann. Schaut man die jetzige Tabelle an, so erscheint dies aber unwahrscheinlich, denn vieles dort sieht schon ähnlich aus wie man es erwarten konnte. Die üblichen Verdächtigen stehen oben, Schalke und auch Leverkusen scheinen nach sehr durchwachsenen Spielzeiten wieder um internationale Plätze zu spielen (wie hoffentlich auch unsere Borussia).  Hamburg, Freiburg und Bremen konnte man auch durchaus  am anderen Tabellenende erwarten. Die einzigen wirklich groβen Überraschungen bislang sind das erfreulich katastrophale Abschneiden des FC Köln und die bislang starke Saison von Hannover 96. Was Borussia Mönchengladbach angeht, so vereinfacht die Tabelle den bisher verwirrenden Saisonverlauf wohl doch etwas. Der achte Platz mit nur 2 Zählern Rückstand auf Platz 3 ist vermutlich im Rahmen dessen, was man erwarten konnte; wie das allerdings zustande gekommen ist – unter anderem mit zwei Klatschen gegen Dortmund und Leverkusen und einem ansonstigem Reisekrankheit auslösenden Auf und Ab – ist aber eine andere Geschichte. Was man jetzt von all dem aus Gladbacher Sicht zu halten hat, werden wir sicher noch zu Genüge diskutieren. Dieser Artikel gilt mehr der grundsätzlichen Frage, wie aussagekräftig die Tabelle zu verschieden Saisonstadien ist. Wir konnten quantitativ belegen, was man eigentlichs schon immer vermutete: nämlich, dass gröβere Aufregungen über Tabellenplatzierungen am dritten oder fünften Spieltag ziemlich hirnrissig sind, sondern die Tabelle typischerweise erst nach dem ersten Saisondrittel gewisse Hinweise darauf gibt, wie es wohl ausgehen könnte. Unser Gesamtfazit ist, dass die Tabelle natürlich niemals lügt, sondern höchstens gelegentlich flunkert.