Datenanalyse
Wenn man ein Jahr lang auf ein sportliches Event hinarbeitet und am Ende von der eigenen Leistung enttäuscht ist, stellt sich natürlich immer die Frage, was schief gelaufen ist. Wie ich erfahren musste stellt sich die Frage auch, wenn man sich nicht das ganze Jahr vorbereitet hat, aber dennoch vom eigenen Ergebnis enttäuscht ist.
Worum geht es? Sowohl 2015, wie auch 2016 habe ich am wunderschönen Tübinger Triathlon (Sprint Distanz) teilgenommen. Konkret heißt das:



Da zu diesen Veranstaltungen die Ergebnisse aller Teilnehmer im Internet verfügbar sind kann ich diese Daten natürlich hervorragend verwenden um meine schlechtere Zeit in diesem Jahr zu rechtfertigen (altersbedingter Leistungsabfall ist leider noch keine gültige Ausrede). Untersuchen wir also die Hypothese:
War der Triathlon 2016 schwieriger als der Triathlon 2015?
Fassen wir die Daten in einer einfachen Tabelle zusammen scheint sich die These zu bestätigen:

Ist der Triathlon 2016 wirklich schwerer gewesen, als der Triathlon 2015?

- ich (rot) recht weit hinten im Feld bin.
- die meisten Teilnehmer 2016 langsamer waren, als im Jahr 2015.
An dieser Stelle brauche ich keinen statistischen Hypothesentest um zu sehen, dass sich etwas von 2015 zu 2016 verändert hat. Auch ohne die Tests zu berechnen kann ich Ihnen versprechen, dass sowohl der two-sample-t-Test für die komplette Stichprobe, wie auch ein paired-t-Test für die verbundene Stichprobe einen statistisch signifikanten Unterschied zeigen würden. Während aber der Unterschied von 10-15 Minuten für mich eine praktische Relevanz hat, haben es mögliche Testergebnisse hier nicht. Ein bisschen p-Value-bashing konnte ich mir an dieser Stelle nicht verkneifen.
Ursachenforschung
Nachdem wir herausgefunden haben, dass es einen relevanten Unterschied zwischen den 2 Veranstaltungen gibt, ist die nächste spannende Frage: Warum waren die Sportler 2016 schlechter als 2015?
War es vielleicht das Wetter?
- Höchsttemperatur am 24.07.2016: 28°C
- Höchsttemperatur am 02.08.2015: 30°C
Es gab allerdings in den Wochen vor dem Triathlon 2016 einigen Regen, der den Wasserspiegel des Neckars und auch seine Strömung erhöht hat. Vielleicht hatte das Einfluß auf die Schwimmleistungen? Es ist sicher eine interessante Idee die Zeiten der Teilnehmer aufgeteilt nach Disziplinen zu betrachten.

Schwimmen
Die typischen Schwimmzeiten für diese Distanz liegen im Bereich von 10 bis 25 Minuten. Ich nehme an, dass die 65 Minuten aus dem Jahr 2015 ein fehlerhafter Datenpunkt sind.

Der Boxplot deutet an, dass die meisten Sportler etwa 1-2 Minuten länger gebraucht haben. Das wäre für die meisten eine Verschlechterung von ungefähr 10%. Eine mögliche Erklärung wäre die stärkere Strömung des Neckars 2016.
Radfahren
Laufen

2015 lagen die Zeiten der meisten Läufer im Bereich von 15 - 27 Minuten. 2016 verschiebt sich der Bereich auf eher 22 - 37 Minuten. Das beruhigt etwas, wenn man schon während des Laufens spekuliert hat, dass die Hügel in Tübingen im letzten Jahr deutlich steiler geworden sein müssen.
Zugegebenermaßen sehen die beiden Strecken (2015 rot, 2016 blau) auf der Karte ziemlich gleich aus. 2015 war die Streckenführung allerdings so, dass man die lange Gerade parallel zum Neckar insgesamt 2 mal ablaufen musste. 2016 war die Streckenführung anders herum und man ist diesen Abschnitt insgesamt drei mal durchlaufen.

Ein schnelles Abmessen der Distanzen via Google Maps ergab, dass die Strecke 2015 etwa 4.9km lang war, während die Strecke in 2016 bei etwa 5.6km lag. Alles in Allem ist das eine Erklärung, aber keine Entschuldigung. Nächstes Jahr wird (noch) mehr Trainiert und dann ist auch die längere Strecke kein Problem mehr! ;-)