Im ersten Teil wurden die ersten beiden Schritte der Datenanalyse beleuchtet, die Definition des Geschäftsproblems und die Akquise der Daten. In diesem Teil geht es um die Analyse selbst.
Webanalyse: Wie aus Daten Taten folgen, Teil 2
Sind die Ziele bestimmt und die Daten erfasst, die für das Messen der Zielerreichung notwendig sind, so ist in einer idealen Welt gar keine Analyse notwendig. Ein Dashboard oder ein Report zeigt an, dass der eingeschlagene Weg zur Zielerreichung der richtige ist und dass das Ziel mit hoher Wahrscheinlichkeit in der avisierten Zeitspanne erreicht wird. Diese ideale Welt ist wahrscheinlich eher die Ausnahme als die Regel, doch schon dieser Teil der Analyse birgt Fehlerpotenzial.
Deskriptive Analytik: Daten richtig beschreiben
Nachdem es im ersten Teil darum ging, ob die richtigen Daten gesammelt werden, dreht sich jetzt alles zunächst darum, dass diese erfassten Daten richtig beschrieben werden. Eine Diagnose, warum etwas von den Erwartungen abweicht, findet hier noch nicht statt. Das klingt zunächst einmal trivial und langweilig, aber überraschenderweise bekommt bei der korrekten Beschreibung von Daten keines der gängigen Analytics-Produkte eine gute Note. Ganz im Gegenteil.
Das verständliche Beschreiben von Daten ist Aufgabe der deskriptiven Statistik. In einem Report oder einem Dashboard werden Daten zusammenfassend beschrieben, sodass ein schneller Überblick und somit eine einfache „Einschätzung der Lage“ möglich sind. Genau das bieten Adobe Analytics, Google Analytics und Co: Eine einfache und mehr oder weniger attraktiv gestaltete grafische Benutzeroberfläche mit Beschreibungen der Daten. Damit ein solches Tool für möglichst viele Nutzer funktioniert, werden Standard-Darstellungen genutzt, die für die Mehrheit der Nutzer verständlich sind. Ein häufiges Beispiel ist die Verwendung des arithmetischen Mittels, auch einfach „Durchschnitt“ genannt. Der Durchschnitt ist deshalb attraktiv, weil er Informationen in einer Zahl verdichtet und der Allgemeinheit geläufig ist. Allerdings, und das ist den meisten Anwendern nicht bewusst, gibt ein Durchschnitt allein nur dann einigermaßen verlässliche Informationen über die Daten, wenn eine Normalverteilung vorliegt. Der Durchschnitt gibt dann nämlich auch den häufigsten Wert (Modus) und den Wert genau in der Mitte (Median) wieder. Liegt keine Normalverteilung vor, so kann es sein, dass der häufigste Wert woanders liegt und der Durchschnitt verzerrt und somit nicht mehr aussagekräftig ist. Oder, wie ein alter Statistiker-Witz lautet, man kann auch in einem See mit einer durchschnittlichen Wassertiefe von 20 Zentimetern ertrinken.
Ein Beispiel für eine Normalverteilung ist in Abbildung 1 zu sehen. Hier wurde ein sogenanntes Histogramm als Darstellung gewählt, da diese Art der Datenvisualisierung ideal ist für eine Häufigkeitsverteilung. Jeder Balken zeigt, wie häufig jeder Wert einer Variablen vorkommt.
Dieses Problem einer fehlenden Normalverteilung und der Auswirkung auf den Durchschnitt soll an einem Beispiel aus der Webanalyse verdeutlicht werden. Die Anzahl der besuchten Seiten pro Sitzung wird häufig als Indikator dafür gesehen, wie interessant Nutzer die besuchten Seiten fanden. Abbildung 2 zeigt eine Statistik aus Google Analytics, in der ein Durchschnitt als Maßzahl verwendet wird.
Daraus lässt sich aber nicht schließen, dass die meisten Nutzer zwei Seiten sehen. Denn die Verteilung der Seiten pro Session zeigt ein ganz anderes Bild, wie in Abbildung 3 zu sehen ist:
Hier handelt es sich wieder um eine Art Histogramm, nur dass es um 90 Grad nach rechts gedreht wurde. Ganz offensichtlich existiert hier keine Normalverteilung, die Verteilung ist rechtsschief. Die meisten Nutzer sehen sich nur eine Seite an. Der Durchschnitt ist deutlich verzerrt. Es sollte daher immer zunächst die Verteilung angesehen werden (die bei Google Analytics & Co meistens im Interface versteckt ist), bevor eine Zahl kommuniziert wird. Der Median, also die Mitte der Werte, wenn alle sortiert in einer Reihe aufgelistet würden, und der Modus (der häufigste Wert) liegen beide bei 1. Die Aussage „Die meisten Nutzer schauen sich eine Seite an“ hat eine ganz andere Wirkung als „Im Durchschnitt schauen sich die Nutzer etwas mehr als zwei Seiten an“ (wobei sich hier schon die Frage stellt, was „etwas mehr“ als zwei Seiten sein soll). Bei der ersten Aussage „fühlt“ man bereits die nächste Aktion, bei der zweiten spürt man eher ein „Na und?“.
Der Durchschnitt der Seiten pro Sitzung ist nicht der einzige Durchschnitt in Abbildung 2. Und für jeden dieser Werte ist auf den ersten Blick nicht klar, ob eine Normalverteilung vorliegt oder nicht. Durchschnittliche Sitzungsdauer? Durchschnittliche Anzahl von Sitzungen? Kaum nützlich, um daraus eine Aktion abzuleiten. Und selbst wenn eine Normalverteilung vorläge, so wäre die nächste Frage, wie groß die Streuung um den Mittelwert ist. Je breiter die Streuung, desto weniger ist der Durchschnitt geeignet, etwas über die Daten auszusagen.
Die Verteilung der Daten zu verstehen, ist die Grundlage für eine korrekte Analyse.
Auch wenn fraglich ist, ob die Anzahl besuchter Seiten pro Sitzung überhaupt ein guter KPI ist, so wird an diesem Beispiel deutlich, dass, auch wenn schlaue Menschen Werkzeuge wie Google Analytics & Co bauen, dies einen nicht davon befreit, das eigene Gehirn anzustrengen, um die Daten besser zu verstehen. Gleichzeitig wäre die Mehrzahl der Benutzer verwirrt, wenn sie einen Median und Quartile neben dem Durchschnitt im Dashboard sähen. Es ist sicherlich keine böse Absicht der Tool-Anbieter, dass sie das in ihre Interfaces integrieren, was für die meisten Anwender einen leichten Einstieg in die Webanalyse bedeutet. Für eine fundierte Analyse reicht das aber in der Regel nicht aus.
Woran liegt‘s? Die diagnostische Analytik
Zeigen die korrekt beschriebenen Kennzahlen Abweichungen auf dem Weg zur Zielerreichung an, so ist die Frage, was die Treiber dafür sind. Aus den korrekt beschriebenen Daten soll nun ermittelt werden, was getan werden muss, um die Abweichung in Zukunft zu verhindern, oder, sollte die Abweichung positiv sein, wie man mehr davon haben kann. Gegen eine höhere Conversion-Rate hat kein Online-Shop etwas. Dadurch, dass zunächst das Hauptziel in Unterziele aufgeteilt wurde, sollten schon Anknüpfungspunkte für eine weitergehende Analyse vorhanden sein.
Aber auch wenn alle Ziele erreicht werden, lohnt es sich immer, zu fragen, ob durch Optimierungen nicht noch mehr herausgeholt werden kann. Um bei dem vorherigen Beispiel zu bleiben: Jeder Besucher, der sich nur eine Seite ansieht, wird bei einem E-Commerce-Shop zumindest in dieser Sitzung nichts kaufen. Bei einer Content-Website mit Werbung kann ein Single-Page-Visit gut sein, wenn Nutzer die Seite verlassen, weil sie auf eine Werbung geklickt haben. In beiden Fällen ist es aber notwendig, die Zahl nicht isoliert zu sehen, denn so kann keine Aktion von ihr abgeleitet werden (im Denglischen auch: „Sie ist nicht actionable.“). Wie auch im ersten Teil dieser Serie brauchen wir einen Bezug. Entweder existieren Kenntnisse, welcher Wert gut ist, oder aber es werden Segmente untereinander verglichen. Der erste Ansatz ist schwierig, da wenige Websites wirklich gut miteinander vergleichbar sind. Der zweite Ansatz dagegen ist eingeschränkt, denn wenn die Website insgesamt ein Problem hat, so würde dies nicht deutlich werden, weil ja jedes Segment unter diesem allgemeinen Problem „leiden“ würde. Dennoch ist dieser Ansatz häufig zielführend.
Segmente sind so was wie die Killerapplikation in der Webanalyse. In der Statistik ist dies seit jeher ein übliches Vorgehen: Die zu untersuchende Population wird in Teilpopulationen aufgeteilt, die sich je nach Fragestellung in ihren Merkmalsausprägungen unterscheiden. Ein Beispiel ist die Aufteilung von Wahlergebnissen in Teilpopulationen nach Bundesländern, Stadt versus Land, Geschlecht, Altersklasse oder Einkommensgruppe. Kommt zum Beispiel bei einer Analyse heraus, dass die Jungwähler eher grün wählen, so lässt sich daraus konkret ableiten, welche Schwerpunkte bedient werden müssen, um auch dieses Segment ansprechen zu können.
Nicht anders verhält es sich in der Webanalyse. So kann segmentiert werden anhand:
- Akquise-Kanal (Suche versus direkt zum Beispiel)
- Browser
- Betriebssystem
- Gerätekategorie (Mobil, Telefon, Tablet)
- Neuer versus wiederkehrender Nutzer (wobei diese Einteilung mit viel Vorsicht zu genießen ist, da nur Browser und nicht Nutzer erfasst werden)
- Vieler weiterer Teilpopulationen
Auf den ersten Blick können hier allerdings auch verwunderliche Daten zutage gefördert werden, wie in Abbildung 4 zu sehen.
Safari hat eine vielfach höhere Absprungrate („Bounce-Rate“) als der am häufigsten genutzte Browser Chrome. Gleichzeitig sind die Anzahl Seiten pro Sitzung („Pages/Session“) geringfügig höher. Entweder haben die Nutzer des Safari-Browsers bei der Anzahl der Seiten pro Besuch eine andere Verteilung erzeugt oder hier stimmt etwas anderes nicht. Tatsächlich handelt es sich hier um eine angepasste Absprungrate, das heißt, dass ein Absprung als solcher gezählt wird, wenn der Nutzer keine Interaktion zeigt, sie oder er also weder scrollt noch einen Link anklickt usw. Im nächsten Schritt würde zunächst einmal dieses Phänomen genauer untersucht werden. Von den „großen“ Browsern sticht nur Safari hier heraus. Die „kleineren“ Browser haben zwar auch hohe Absprung-Raten, werden aber auch von viel weniger Nutzern verwendet, sodass erst einmal der größte Abweicher in Bezug auf Nutzer analysiert wird.
Ein anderes Beispiel in der Analyse sind Zusammenhänge zwischen einzelnen Merkmalen. Oft möchte man wissen, ob man etwas an einem Ergebnis ändern kann, wenn eine Variable, auf die man Einfluss hat, verändert wird. Wer eine Seite mit Werbung betreibt, ist zum Beispiel daran interessiert, die Werbeeinnahmen zu erhöhen, und sucht nach Variablen, die das Ergebnis positiv beeinflussen. Allerdings bedeutet ein Zusammenhang in den Zahlen nicht immer auch, dass dieser Zusammenhang tatsächlich existiert. Daher wird auch von einem statistischen Zusammenhang gesprochen, wenn von einer Korrelation die Rede ist. Eine Korrelation ist keine Ursache-Wirkung-Beziehung.
Hohe Korrelationen sind relativ einfach in einer Visualisierung erkennbar, da die geplotteten Datenpunkte an einer imaginären Linie ausgerichtet sind wie in Abbildung 5 (hier am Beispiel eines positiven Korrelationskoeffizienten von 0,98; 1 wäre das Maximum). Man könnte das auch so ausdrücken: „Je mehr x, desto mehr y“, beziehungsweise: „Je weniger x, desto weniger y“, oder, bei einer negativen Korrelation: „Je weniger x, desto mehr y“, beziehungsweise: „Je mehr x, desto weniger y.“
In diesem Fall wird die Zahl der Impressionen einer Seite mit der Häufigkeit, dass sie zu Ende gelesen wurde, in Relation gesetzt. Offensichtlich kann hier ein Zusammenhang erwartet werden, denn je öfter eine Seite besucht wird, desto häufiger sollte sie auch die Chance haben, bis zum Schluss gelesen zu werden; zu wissen, welche Variable eine andere beeinflusst, ist allerdings nicht die Regel bei einer Korrelation. Interessant wäre nun noch zu schauen, ob auch die Länge eines Textes einen Einfluss auf die Wahrscheinlichkeit hat, dass ein Text zu Ende gelesen wird. Zu wissen, dass es einen Zusammenhang gibt, ist aber nicht unmittelbar handlungsrelevant. Um daraus eine Aktion abzuleiten, werden weitere Analyseschritte benötigt.
Von der Statistik lernen: Die explorative Datenanalyse
Wie an diesen Beispielen zu sehen ist, besteht bei einer tiefergehenden Analyse die Gefahr, dass man schnell vom Hundertsten ins Tausendste kommt, sich in dem Datenwust verliert und am Ende nicht mal mehr erinnert, welche Fragestellung eigentlich verfolgt wurde. So findet man manchmal etwas, verliert das kleine Goldstückchen dann aber während der Analyse, weil weitere Gold-Nuggets woanders vermutet werden und dafür zwischendurch so viele Schritte unternommen werden, dass eine Reproduzierbarkeit des ersten Goldstückchens schwierig bis unmöglich ist. Auch ist es für andere Analysten, die auf den Ergebnissen aufbauen, nicht immer einfach, die Gedanken zu reproduzieren. Und selbst als Einzelkämpfer erinnert man sich nicht immer, was man vor drei Wochen herausgefunden hatte. Auch dafür existiert eine Lösung, wenngleich sie erfordert, zunächst einmal von den Interfaces, die Google & Co bieten, Abstand zu nehmen.
Im Data-Science-Bereich hat sich der Ansatz der explorativen Datenanalyse (EDA) als extrem nützlich erwiesen. Eingeführt wurde der Begriff bereits in den 1960er-Jahren durch John Tukey, der von der Statistik eine stärkere Beschäftigung mit Daten forderte. Dank der Vielfalt frei verfügbarer Programmier-Entwicklungsumgebungen sowie leistungsfähiger Rechner kann heute jeder mit einfachen Mitteln Daten systematisch explorativ analysieren. Dazu werden sogenannte Notebooks verwendet, die für verschiedene Programmiersprachen zur Verfügung stehen.
Das Besondere an den Notebooks ist, dass sowohl die Gedanken als auch der Code sowie die Ergebnisse des Codes und deren Interpretationen zusammengeführt werden. Der Autor eines Notebooks führt die Leser durch seine Gedankenwelt, zeigt den Code, der für den Ausdruck seiner Gedanken verwendet wurde, und erläutert auch seine Interpretation der Ergebnisse. Andere Analysten können sehen, ob der Code korrekt ist, und müssen sich nicht allein auf die Aussagen des Analysten verlassen. So kann auch zu einem späteren Zeitpunkt, wenn der Analyst vielleicht nicht mehr an Bord ist, alles nachvollzogen werden.
Patrick Lürwer hatte R-Notebooks bereits mit seiner Reihe „R für SEO“ in vorherigen Website-Boosting-Ausgaben vorgestellt und diese für das Erstellen eines Reports verwendet. In der explorativen Datenanalyse werden Notebooks weniger für ein regelmäßiges Reporting, sondern, wie der Name schon sagt, zur Dokumentation der Exploration verwendet. Profi-Tipp: Gleich oben im Notebook das Ziel der Analyse definieren und dann bei jedem Abschnitt die Frage beantworten, ob die Frage beantwortet werden kann.
In den folgenden Abschnitten soll eine kurze Analyse vorgestellt werden. Wie bei Patrick wird auch hier das Package tidyverse von Hadley Wickham verwendet. Der Vorteil des tidyverse ist, dass mit wenigen Befehlen eine komplette Analyse durchgeführt werden kann und die analytischen Vorgehensweisen in einfache Programmbefehle übersetzt werden. Die folgenden Beispiele stammen aus einem Notebook, das unter alby.link/websiteboostingnotebook zusammen mit den Daten zur Verfügung gestellt wird. Die HTML-Version findet sich unter alby.link/websiteboostingbeispieleda. In beiden Versionen werden die einzelnen Schritte des Codes ausführlich erläutert.
Nachdem die Libraries und die Daten geladen und transformiert wurden, wird der zuvor in Abbildung 5 verwendete Plot der Impressionen im Verhältnis zu den zu Ende gelesenen Texten zusätzlich mit einer Regressionslinie versehen (siehe Abbildung 6). Eine solche Analyse wird üblicherweise dazu verwendet, eine Prognose zu erstellen: „Wenn x, wie viel ist dann y?“ Zuvor wurde bei der Korrelation nur der Zusammenhang festgestellt, nun wird der Wert der abhängigen Variablen beim Eintreten eines Werts der unabhängigen Variablen vorhergesagt. An der Regressionslinie ist erkennbar, welche Texte unter oder über der Regressionslinie, also dem zu erwartenden Wert, liegen.
Für die weitere Analyse wird nun ein kleiner Trick verwendet: Anstatt der Datenpunkte selber werden Residuen angesehen. Da meistens nicht alle Beobachtungen auf einer Regressionslinie liegen, werden die vertikalen Abstände der Beobachtungspunkte von dem zu erwartenden Wert gemessen. Dies sind die Residuen. Der Punkt ganz rechts oben hat einen geringeren Abstand zur Regressionslinie als der Punkt links daneben; das Residuum des ganz rechten Punkts beträgt 28,58, das des Punktes links daneben 77,04. Werden die Residuen geplottet, ergibt sich eine Visualisierung wie in Abbildung 7. Um in diesem Beispiel noch etwas lesen zu können, wurden nur Seiten mit mindestens 50 Aufrufen in dem Beobachtungszeitraum einbezogen.
Anders als in dem vorherigen Plot sind die Werte nun nicht mehr nach einem numerischen Wert sortiert; auf der x-Achse sind die einzelnen Seitenpfade abgebildet. Somit kann einfach abgelesen werden, welche Seiten besonders stark von dem zu erwartenden Wert abweichen. Interessant ist hier, dass auch Seiten mit nur wenigen Hundert Aufrufen hohe Residuen haben können. Diese Analyse ist unmittelbar handlungsrelevant: Die Seiten mit hohen positiven Residuen haben etwas, was Seiten mit hohen negativen Residuen nicht haben. Die Texte können genauer analysiert werden, auch in Bezug darauf, mit welchen Suchbegriffen die Nutzer kommen, ob ihre Intention hier befriedigt wird. Sind Scroll-Daten vorhanden, so könnte zusätzlich nachgesehen werden, bis wohin die meisten Nutzer scrollen.
Ein Beispiel für eine längere EDA zum Thema SEO und Data Science kann unter alby.link/eda angesehen werden. Dieses Notebook wurde im Anschluss an einen kontrovers diskutierten Vortrag auf einer SEO-Konferenz zur Verfügung gestellt. Gerade im Bereich Suchmaschinenoptimierung, in dem viele Meinungen existieren, aber selten Fakten über anekdotische Evidenz hinaus geteilt werden, sind solche Ansätze zielführend.