Mal Hand aufs Herz: War Statistik in der Schule oder im Studium Ihr Lieblingsthema? Die wenigsten werden diese Frage mit „Ja“ beantworten. Die schlechte Nachricht ist: Sie werden, wenn Sie sinnvolle und aussagekräftige A/B-Tests durchführen möchten, nicht an Statistik vorbeikommen.
„A/B-Tests ohne statistisches Know-how sind nicht besser, als auf sein Bauchgefühl zu hören!“
Und wer möchte seine businessrelevanten Entscheidungen aus dem Bauch heraus treffen? A/B-Tests sind nichts anderes als Experimente oder Feldversuche, wie man sie in der Psychologie oder in der allgemeinen Statistik am laufenden Band durchführt. Als sogenannte „Hypothesen-Tests“ (oder auch: t-Tests) geht es darum, vorab getroffene Annahmen zu beweisen (verifizieren) oder zu widerlegen (falsifizieren). Zum Beispiel, dass die Hervorhebung eines Gütesiegels oder die Anpassung von Call-to-Action-Elementen (wie z. B. Bestell-Buttons) zu einer höheren Bestellrate der Website-Besucher führt.
Die gute Nachricht ist: Sie brauchen sich dafür nicht vor umfangreiche Statistik-Lehrbücher setzen, sondern können sich das Wissen durch Lesen dieses Artikels aneignen. Sinn und Zweck ist es, Sie mit dem Rüstzeug auszustatten, um A/B-Tests fundiert konzipieren zu können und Ergebnisse und Kennzahlen sinnvoll nutz- und interpretierbar zu machen. Da die Begrifflichkeiten und Prinzipien dahinter bei gängigen A/B-Testing-Tools ähnlich sind, werden Sie sich damit in jedem Tool zurechtfinden.
Was ist ein A/B-Test?
Bei einem A/B-Test bzw. Split-Test geht es darum, die derzeitige Version eines Systems oder in diesem Falle einer Webseite gegen eine veränderte Version zu testen, um Unterschiede in der Nutzerreaktion herauszufinden (siehe de.wikipedia.org/wiki/A-B-Test). Wie schon angedeutet, gilt es dabei, eine gute Hypothese pro Testvariante aufzustellen und mit dem Test zu überprüfen. Beispiele hierfür sind Layout-Änderungen oder zum Beispiel die Umbenennung von Navigationselementen. Dies kann man im einfachsten Fall mit zwei Varianten durchführen oder in Form eines A/B/n-Tests mit mehr als zwei Varianten. Grundsätzlich geht es immer darum, anhand einer Stichprobe im Rahmen eines Experiments zu einer allgemeinen Aussage über alle Nutzer zu gelangen. Hier beginnt die erste statistische Herausforderung: Wie wähle ich die ideale Stichprobe?
Ideale Stichprobe und Varianz
Die Eingangsfrage jedes Experiments oder Tests in der Statistik ist die Definition der Stichprobengröße und -zusammensetzung, die am besten die Grundgesamtheit der Nutzer widerspiegelt. Anschauliches Beispiel: Bei einem Roulette-Spiel haben die Farben Rot und Schwarz dieselbe Wahrscheinlichkeit (48,6 %, es gibt noch die grüne 0). Das veranlasst viele, bei einer längeren Phase des Erscheinens von „Rot“ krampfhaft auf „Schwarz“ zu tippen, da beide gleich oft erscheinen müssten und nun „Schwarz“ an der Reihe wäre. Das mag zwar bei rund 10.000 Runden Roulette in etwa stimmen, aber heißt noch lange nicht, dass die Verteilung auch bei zehn Runden 48,6 % ist. Dieser Irrtum über die „passende“ Stichprobe dürfte schon einige ihrer Ersparnisse beraubt haben. Auf dieses Grundproblem wird bei der Testinterpretation noch einmal eingegangen.
Erschwert wird die Wahl der Stichprobe dadurch, dass der Traffic einer Webseite nie konstant die gleichen Eigenschaften aufweist. So konvertieren Besucher je nach Herkunft oder Endgerät besser oder schlechter als der „durchschnittliche Nutzer“. Ebenso sind bestimmte Aktionen, die vielleicht während eines Tests laufen (zum Beispiel eine Sale-Aktion) oder schlicht und einfach die Tatsache, dass Nutzer je nach Wochentag besser oder schlechter konvertieren, potenzielle Störfeuer, die Ihre Testergebnisse verzerren können. Lange Test-Laufzeiten und große Stichprobengrößen helfen, solche Verzerrungen zu vermeiden. Die meisten Conversion-Optimierer empfehlen als grobe Faustregel mindestens 1.000 Conversions pro Variante bzw. eine Testlaufzeit von mindestens zwei, besser vier Wochen. Generell hängt die Stichprobengröße von folgenden vier Faktoren ab:
- Die aktuelle Conversion-Rate des zu optimierenden Ziels (z. B. Bestellrate ist gleich 3,0 %)
- Der generierte Uplift (die prozentuale Steigerung der Conversion, z. B. 5,0 %)
- Das Konfidenzlevel (eine Aussagesicherheit von 95 % für Online-Tests wird empfohlen)
- Die statistische Power (mehr im Abschnitt „Konfidenzlevel und Signifikanzlevel“, die meisten Testing-Tools gehen von 80 % Power aus)
Grundsätzlich gilt: Je größer der zu erwartende Uplift ist, desto weniger Fallzahlen benötigen Sie für einen aussagekräftigen Test.
Für Seiten mit wenig Traffic kann es ein probates Mittel sein, bei Tests darauf zu achten, dass man die kritischsten und erfolgversprechendsten Punkte priorisiert angeht und sich nicht auf Feintunings mit geringen möglichen Uplifts konzentriert. Aber Vorsicht: Nur den zu erwartenden Uplift im Vorfeld hoch einzuschätzen, kann sich als Bärendienst erweisen, da Sie die benötigte Laufzeit Ihrer Tests unterschätzen könnten.
Die ideale Größe der Stichprobe bzw. die benötigte Testdauer, die sich ergibt, lässt sich mit vielen Online-Tools berechnen, was unbedingt vor einem Test gemacht werden sollte, zum Beispiel mit: www.evanmiller.org/ab-testing/sample-size.html.
Es gilt, die Stichprobe möglichst realistisch abzustecken. Bei „schwankenden“ Stichproben haben Sie sonst eine sehr hohe Variabilität (auch: Varianz). Das bedeutet, dass die Streuung der betrachteten Variable (z. B. Conversion-Rate) sehr groß ist (siehe Abb. 1). Zum Beispiel liegt der Uplift (also die Verbesserung) der Variante im Schnitt (Mittelwert) in Ihrem Test bei 3,3 %. Wenn Sie sich die Stichprobe Ihres Tests genauer ansehen, wird es wie im Roulette-Beispiel Schwankungen geben. Mal wird die Conversion-Rate auf 100 Besucher bei 1,0 % liegen, mal sogar bei 5,6 %. Diese Abweichung um 2,3 % vom Mittelwert nennt man den statistischen Fehler. Damit lässt sich das Konfidenzintervall berechnen – die Spannweite der Werte von unten nach oben. Zum Beispiel lässt sich damit sagen, dass mit einer 95-prozentigen Wahrscheinlichkeit (Konfidenzlevel) der Uplift zwischen 1,0 % und 5,6 % liegt. Je schmaler die Spannweite, desto besser ist der wahre Wert des Uplifts eingegrenzt. Da viele A/B-Testing-Tools die Interpretation ihrer Daten möglichst einfach und verständlich gestalten möchten, wird meist nur der Mittelwert des Uplifts ausgewiesen. Daher lohnt sich ein genauer Blick darauf, wie sich die Varianz des Tests verhält bzw. wie hoch das Konfidenzintervall des Tests ist. Sonst gehen Sie ähnlich wie am Roulette-Tisch davon aus, dass Sie sofort 3,3 % mehr Conversions erzielen, und wundern sich, dass im dauerhaften Betrieb dann andere Werte (1 %–5,6 %) auftreten. Auch hier gilt das sogenannte Prinzip der „regression to the mean“, das besagt, dass eine hohe Fallzahl dazu führt, dass die Varianz geringer wird und somit eine „Regression“ (Angleichung) der Werte an den Mittelwert erfolgt.