Zurück zum Glossar
S

Statistische Signifikanz.

Der Moment, in dem ein A/B-Test-Ergebnis mit hinreichender Sicherheit nicht mehr durch Zufall erklärbar ist. Ohne statistische Signifikanz ist jedes Testergebnis nur eine Meinung mit besonders vielen Nachkommastellen.

Wenn zwei Varianten einer Seite gegeneinander laufen und Variante B 5 % besser konvertiert als A, ist das zunächst nur eine Beobachtung. Die entscheidende Frage lautet: Wie wahrscheinlich ist es, dass wir diesen Unterschied sehen würden, obwohl es in Wirklichkeit gar keinen gibt? Die statistische Signifikanz ist die Antwort auf diese Frage — oder, präziser, ein Maß dafür, wie unwahrscheinlich das beobachtete Ergebnis unter der Annahme wäre, dass beide Varianten gleich gut sind.

Das gängige Schwellen­kriterium ist ein p-Wert von 0,05 (entsprechend 95 % Konfidenz). Liegt der p-Wert darunter, sprechen wir von einem „statistisch signifikanten" Ergebnis. Das bedeutet nicht, dass Variante B sicher besser ist — es bedeutet, dass die Wahrscheinlichkeit eines zufälligen Treffers auf 5 % gesunken ist.

Die häufigsten Fehler

  • Peeking: Wer während des Tests alle zwei Stunden in das Dashboard schaut und beim ersten signifikanten Ausschlag stoppt, inflationiert den Fehler erster Art drastisch. Signifikanz muss zum vorher definierten Endzeitpunkt geprüft werden.
  • Unterdimensionierte Stichprobe: Ein Test mit 400 Besuchern pro Variante kann schlicht nicht signifikant werden, egal wie groß der wahre Effekt ist. Stichprobengröße wird vor dem Test berechnet — nicht nach Bauchgefühl.
  • Kurze Laufzeit: Wochentag- und Saison-Effekte werden ignoriert, wenn ein Test nur drei Tage läuft. Mindestens ein voller Wochen­zyklus ist Pflicht.
  • Signifikanz mit Relevanz verwechseln: Ein Effekt kann statistisch signifikant und gleichzeitig wirtschaftlich bedeutungslos sein. 0,1 % mehr Conversion bei einer Million Besuchern mag signifikant sein — aber rechtfertigt es den Rollout?
  • Multiple Testing ignorieren: Wer 20 Varianten gegeneinander laufen lässt, findet fast garantiert eine „signifikante" — rein zufällig. Bonferroni oder vergleichbare Korrekturen gehören in jeden sauberen Testaufbau.

Frequentistisch vs. Bayesianisch

Klassische A/B-Test-Tools rechnen frequentistisch mit p-Werten. Moderne Plattformen bieten zunehmend auch bayesianische Auswertungen an („Wahrscheinlichkeit, dass B besser ist: 94 %"). Das ist intuitiver verständlich und erlaubt unter bestimmten Voraussetzungen ein früheres Stoppen, hat aber eigene Fallstricke — vor allem bei der Wahl der Priors. Für die meisten CRO-Projekte ist der frequentistische Ansatz ausreichend, solange Stichprobengröße und Laufzeit vorher sauber definiert werden.

Statistische Signifikanz ist die Grundlage jedes seriösen A/B-Tests. Wer sie nicht versteht oder ignoriert, optimiert Zufall — und wundert sich nach dem Rollout, warum der vermeintliche Sieger in Produktion plötzlich doch nicht performt.