Der Moment, in dem ein A/B-Test-Ergebnis mit hinreichender Sicherheit nicht mehr durch Zufall erklärbar ist. Ohne statistische Signifikanz ist jedes Testergebnis nur eine Meinung mit besonders vielen Nachkommastellen.
Wenn zwei Varianten einer Seite gegeneinander laufen und Variante B 5 % besser konvertiert als A, ist das zunächst nur eine Beobachtung. Die entscheidende Frage lautet: Wie wahrscheinlich ist es, dass wir diesen Unterschied sehen würden, obwohl es in Wirklichkeit gar keinen gibt? Die statistische Signifikanz ist die Antwort auf diese Frage — oder, präziser, ein Maß dafür, wie unwahrscheinlich das beobachtete Ergebnis unter der Annahme wäre, dass beide Varianten gleich gut sind.
Das gängige Schwellenkriterium ist ein p-Wert von 0,05 (entsprechend 95 % Konfidenz). Liegt der p-Wert darunter, sprechen wir von einem „statistisch signifikanten" Ergebnis. Das bedeutet nicht, dass Variante B sicher besser ist — es bedeutet, dass die Wahrscheinlichkeit eines zufälligen Treffers auf 5 % gesunken ist.
Klassische A/B-Test-Tools rechnen frequentistisch mit p-Werten. Moderne Plattformen bieten zunehmend auch bayesianische Auswertungen an („Wahrscheinlichkeit, dass B besser ist: 94 %"). Das ist intuitiver verständlich und erlaubt unter bestimmten Voraussetzungen ein früheres Stoppen, hat aber eigene Fallstricke — vor allem bei der Wahl der Priors. Für die meisten CRO-Projekte ist der frequentistische Ansatz ausreichend, solange Stichprobengröße und Laufzeit vorher sauber definiert werden.
Statistische Signifikanz ist die Grundlage jedes seriösen A/B-Tests. Wer sie nicht versteht oder ignoriert, optimiert Zufall — und wundert sich nach dem Rollout, warum der vermeintliche Sieger in Produktion plötzlich doch nicht performt.