Für echte Bundesligajunkies ist die Winterpause hart. Manch einer geht sogar soweit, die Entzugssymptome durch das wechselsweise Anschauen magersüchtiger  junger Männer, die sich Skischanzen hinunter stürzen und – zum Ausgleich – übergewichtiger alkoholisierter Briten, die Pfeile werfen, zu bekämpfen. Da ich aber  persönlich weder dem Skipringen noch Darts groβ etwas abgewinnen kann (warum nicht gleich Rhönradfahren, Asphaltkegeln oder Hallenhalma?) habe ich meinen Fussballbedarf über den Jahreswechsel zum einem mit den schönen historischen Seitenwahlartikeln zum 20. Geburtstag und zum anderen mit dem Lesen und Hören der diversen Rückblicke auf die Hinrunde (einer davon auch hier auf Seitenwahl von Thomas Häcki, siehe hier) gedeckt.  Würde man aus den letzteren Beiträgen eine „Word Cloud“ formen (das sind diese Dinger, die Worte entsprechend ihrer Häufigkeit in einem Text zeigen, und mit denen Leute oft meinen eine Powerpoint-Presentation lebendiger zu machen, was meistens aber nicht klappt) so würden sicher die Begriffe „Achterbahnfahrt“, „Unbeständigkeit“ oder „Wundertüte“ im Vordergrund stehen. Worin sich all diese Rückblicke auch einig waren, ist dass 28 Punkte  in einer Halbserie eigentlich recht ordentlich sind, dass aber die Tordifferenz das Bild etwas trübt.

Nun spielt das Torverhältnis im Bewusstsein von Fussballfans traditionell kaum eine Rolle. Seine Existenz wird eigentlich nur dann wahrgenommen, wenn es am letzten Spieltag beim Rennen um einen entscheidenden Platz Punktgleichheit gibt. Bei der Borussia war das z.B. 1977/78 der Fall als der FC „Tasmania“ Köln am letzten Spieltag mit einem dubios hohem 5:0-Sieg in St. Pauli (alle Achtung vor den Borussia-Funktionären, die zu jener Zeit aus sportlichem Anstand nie den naheliegenden Manipulationsverdacht geäußert haben!) die Meisterschaft ins Ziel rettete oder im Mai 1998 als man Aufgrund des um 7 Tore besseren Torverhältnisses gegenüber Karlsruhe den Abstieg um ein Jahr verschieben konnte. Auch im Jahr 1984 war man übrigens mit dem damaligen Meister Stuttgart am Ende punktgleich, aber damals war die Meisterschaft der Schwaben schon nach dem 33. Spieltag praktisch klar und die Abschlusstabelle, in der die ersten Vier nur ein Punkt trennt, liest sich spannender als das Meisterschaftsrennen eigentlich war.

Angesichts der Seltenheit mit der die Tordifferenz eine tragende Rolle spielt, ist es verständlich, dass sie wenig beachtet wird, aber in den letzten Jahre wurde immer wieder (unter anderem von mir) die Theorie verbreitet, dass Torverhältnis könne zur Vorhersage zukünftiger Spiele vielleicht nützlicher sein als der Punktestand. Die Logik dahinter ist einfach zu erklären: Gewinnen Team A und B gegen den gleichen Gegner 5:0 bzw 1:0, so könnte der Sieg von Team B durchaus purer Zufall (z.B. ein abgefälschter Glücksschuss in der 93. Minute) sein, wohingegen Team A offensichtlich klar überlegen war. Was die Punkte angeht, würden beide Teams mit 3 Punkten ebenbürtig da stehen aber in  zukünftigen Spielen würde man Team A mehr zutrauen als  Team B.

Nun ist nicht alles was einleuchtend klingt damit auch gleich korrekt,  und es stellt sich die Frage ob sich die vermutete bessere Prognosekraft des Torverhältnis im Vergleich zum Punktestand auch in den realen Tabellendaten widerspiegelt. Wie schon in einem anderen Artikell vor einigen Wochen  (siehe hier ) benutzen wir einen Datensatz aller Bundesligaergebnisse von 1963-2009, wobei  nur die 43 Spielzeiten mit 18 Teams berücksichtigt werden. Das Ziel ist es aus den Punkteständen und Torverhältnissen der Vorrunde, die Punktzahl in der Rückrunde so gut wie möglich vorherzusagen (für die Jahre vor 1995 rechnen wir dabei die 2-Punkte Tabellen in 3-Punkte-Tabellen um). Es ist klar, dass dies keine optimale Vorhersage sein kann, weil  viele wichtige Faktoren dabei nicht eingehen wie individuelle Spielerdaten (Passdaten, Zweikampfquoten, Laufdaten, …), Kenntnis über Verletztungen, Transferaktivitäten in er Winterpause usw.  Solche eine  Vorhersage von Buchmacherqualität geht weit über unsere bescheidenen Möglichkeiten hinaus und bedarf besserer Datenquellen und vor allem Zeit als uns zur Verfügung steht. Das Hauptanliegen hier ist vielmehr den Einfuss von Punkte und Tordaten auf die Prognose zu vergleichen.

Schauen wir uns zunächst mal an wie sich die Punktebilanzen von Hin und Rückrunde zueinander verhalten. Für beides liegen uns 43x18 = 774 Datenpunkte vor, die wir im folgenden Streudiagramm gegeneinander aufgetragen haben.

 float:left

Man sieht, dass es offensichtlich einen Zusammenhange gibt (grosse Punktzahlen in der Hinrunde gehen mit grossen Punktzahlen in der Rückrunde einher), aber dass die Variabilität auch hoch ist. Die Stärke des Zusammenhangs kann durch die Korrelation quantifiziert werden, die in diesem Fall r= 0.51 beträgt. Einen interessanten Aspekt dieser Grafik sieht man ein wenig besser wenn man sie um 45% dreht und statt dessen die Differenz der Rückrundenpunkte und Hinrundenpunkte auf der y-Achse betrachtet.

Man kann hier klar eine Tendenz sehen, dass diese Differenz positiv ist, wenn eine Mannschaft wenige Punkte in der Hinrunde hatte und negativ, wenn sie viele Punkte sammelte. Oder anders ausgedrückt: Die besonders schlechten Mannschschaft werden besser, die besonders guten schlechter. Es mag naheliegen das mit ein bisschen Michmäden-Psychologie zu erklären („die schlechten reissen sich zusammen vor allem wenn sie den Trainer gewechselt haben, die Guten ruhen sich auf ihren Lorbeeren aus“), aber in Wahrheit liegt ein ein klassicher Fall des statistischen Phänomens der „Regression zur Mitte“ vor, welches besagt, dass in jedem Prozess der ein Zufallselement enthält, extreme Beobachtungen bei Wiederholung wieder durchschnittlicher werden. Stefan Ruthenbeck wird vermutlich davon profitieren, denn es ist kaum denkbar, dass der FC Köln noch einmal unterirdische 6 Punkte in der Rückrunde erzielt. Die Steigerung wird aber nicht unbedingt ewas damit zu tun haben, dass Ruthenbeck ein besserer Trainer als Peter Stöger ist,  als vielmehr einfach „Regression zur Mitte“ sein. (Das möge man bitte nicht so interpretieren soll, dass der FC es noch in die Tabellenmitte schafft. Es besagt lediglich, dass man in der Rückrunde wieder eine „normalere“ Punktzahl erreichen wird, die aber mit grösster Wahrscheinlichkeit (hoffentlich!) nicht zum Klassenerhalt reichen wird.)

Ups, jetzt habe ich mich etwas vom Thema ablenken lassen, aber ich glaube ernsthaft dass die Welt eine bessere wäre, wenn nicht nur Fuβballfans sondern auch Politiker, Ökonomen und andere Gestalten das Prinzip des „Regressions zur Mitte“ verinnerlichen würden und akzeptieren, dass nicht jede kleine Krise bedeutet, dass man alles falsch macht und auch nicht jeder kleiner Höhenflug heisst, dass alles richtig ist...aber wo waren wir stehengeblieben? Ach ja, das Torverhältnis! Das nächste Streudiagramm zeigt wie sich Torverhältnis der Hinrunde zur Punktbilanz der Rückrunde verhält und wir sehen erneut einen Zusammenhang.

Man mag es der Grafik nicht unbedingt sofort ansehen, aber hier beträgt die Korrelation r = 0.54, d.h der Zusammenhang ist etwas stärker als beim Punktestand der Hinrunde, was die These „das Torverhaeltnis ist der bessere Prediktor“ erhärtet. Benutzt man die Tordifferenz allein zur Vorhersage, so kann man die Punkteprognosen in der Grafik von der roten Linie ablesen: für eine Tordifferenz von 0 z.B geht man einfach von dem Wert 0 auf der x-Achse vertikal hoch bis man die rote Linie trifft und liest den entsprechenden y-Wert ab, was in diesem Fall den Wert 23.37 ergäbe.

Nun wäere es durchaus denkbar, dass Punktebilanz und Todifferenz sich ergänzen, also jeweils andere Aspekte der zukünftigen Leistung auffangen und zusammen für eine bessere Vorhersage sorgen. Dies lässt sich statistisch überprüfen durch eine „multiple Regressieon“ mit den zwei erklärenden Variablen Punktezahl und Tordifferenz der Hinrunde. Führt man das durch, erhält man dass wenn die Punktezahl der Hinrunde bekannt ist die Tordifferenz noch eine hoch signifikante Verbesserung der Vorhersage bewirkt, aber umgkehrt bei Kenntnis der Tordifferenz die Punktezahl keine signifikante Verbesserung bringt. Oder anders ausgedrückt: Es kommt bei der Vorhersage für die Zukunft nur auf das Torverhältnis an, die Punktzahl ist unbedeutend! Ich muss gestehen, dass ich dieses Ergebnis in dieser Deutlchikeit selbst nicht erwartet hatte. Im folgenden zeigen wir die Vorhersage der Rückrundentabelle basierend auf nur der Tordifferenz. 

Was zunächst auffällt, ist dass die prognostizierten Punktezahlen näher aneinander liegen als man das erwarten würde. Dies ist zum Teil typisch für jegliche Regressionsanalyse, bei der die Variabilität der geschätzten Werte stets geringer ist als die der real beobachteten (es ist ja genau das Ziel der Regression die zufällige Variation zu entfernen); zum anderen ist es aber auch eine Konsequenz der oben diskutierten „Regression zur Mitte“, d.h. die Analyse berücksichtigt die Tatsache, dass die schlechtesten Teams vermutlich etwas besser werden und die besten vermutlich etwas schlechter. Man sollte auch betonen, dass diese Analyse davon ausgeht, dass die historischen Bundesligadaten der vergangenen 50 Jahre repräsentativ für heute sind. Traditionell hat halt eine Mannschaft, die so eine gute Hinrunde wie die Bayern gespielt hat in der Rückrunde etwas abgebaut. Aber damals gab es einfach auch keine Mannschaft die von den finanziellen Voraussetzungen und der Kaderbesetzung einen solch eklatanten Vorteil gegenüber den meisten der Konkurrenten hatte.

Was Borussia angeht, so sorgt das schwache Torverhältnis der Hinrunde dafür, dass wir für die Rückrunde nur einen 11. Platz vorhersagen. Zählt man allerdings die Punkte der Hinrundentabelle hinzu, würde dies so gerade eben reichen um vor Hoffenheim auf Platz 6 zu bleiben. Interessant ist, dass es in den hier analysierten 43 Spielzeiten (1965-2009, ausser 91/92) nur 3 mal Teams gab, die 28 oder mehr Punkte in der Hinrunde holten und trotzdem eine negative Tordifferenz  hatten. Schalke 04 gelang dieses Kunststück in der Saison 69/70 als man im Winter auf dem 5. Platz stand mit 27:29 Toren in der Rückrunde aber lediglich (umgerechnet) 17 Punkte holte und auf dem 9. Platz landete. Ähnlich erging es 07/08 dem KSC, der als Neuling zur Winterpause trotz 19:21 Toren auf dem 6. Platz an internationalen Plätzen schnupperte, aber mit nur 15 Punkten in der Rückrunde noch auf den 11. Platz zurückfiel. Die einzige Ausnahme ist (Tusch!) die Borussia aus Mönchengladbach, die 95/96 mit 28:31 Toren auf dem vierten Platz überwinterte, diesen Platz aber mit passablen 25 Punkten in der Rückrunde halten konnte (Nach 2009 gab es mit Werder 11/12 noch einen Fall, wo das negative Torverhältnis den Absturz von Platz 5 auf 9 ankündigte, aber mit Hannover 10/11 auch noch einen, wo trotzdem ein vierter Platz gehalten wurde).

Wie man an diesen Beispielen sehen kann sind die geschätzten 23 Rückrundenpunkte für die Borussia zwar ein interessanter Richtwert, aber es gibt enorme Variabilität. Versieht man diese Vorhersage mit einem Konfidenzintervall (welches in 95% aller Fälle den wahren Wert abdecken sollte) so reicht dies von 12 bis 35 Punkte, d.h. auch statistisch betrachtet is sowohl nach unten als nach oben für den VFL noch einiges möglich.

Wie bereits gesagt, ist all diese Zahlenspielerei sowieso mit Vorsicht zu geniessen, da wir viele potenziell wichtige Faktoren nicht mit einbeziehen. Der wichtige Punkt ist auch nicht die Vorhersage als solches sondern die Tatsache, dass unsere Analyse zeigt, dass die oft so stiefmütterlich vernachlässigte Tordifferenz tatsächlich ein wichtigerer prognostischer Faktor  ist als die Punktzahl. Hoffen wir mal, dass Gladbach schon am Sonntag das Torverhältnis wieder positiv gestalten kann und wir somit die Prognose nach oben korrigieren können.