Als Nächstes wechselt man in den Bereich „Response Codes“. Oben wählt man den Filter „Client Error 4xx“ und wählt das Häkchen bei „Last Response“ aus (Last Response zeigt nur den zuletzt gemessenen Wert für die URL an).
Nun erhält man eine Liste an URLs, die der Bot im genannten Zeitraum angefragt hat und die einen 4xx-Status-Code ausgegeben haben. Selektiert man eine URL, kann man im unteren Bereich den Tab „Events“ auswählen. Nun sieht man Events zu dieser URL und ob sich der Status-Code im Laufe der Zeit geändert hat.
Als Nächstes kann man den Ursachen hierfür im System auf den Grund gehen. Im Falle meines Kunden sind die 404-Fehler aus gelöschten JavaScripts entstanden. Hier wird man den Server noch besser konfigurieren müssen. Für gelöschte Ressourcen sollte der Status-Code 410 ausgegeben werden.
Dieses Vorgehen lässt sich auf alle 3xx-, 4xx- und 5xx-Status-Codes anwenden.
Analyse Beispiel 3: Welche URLs sind für die Suchmaschine am wichtigsten?
Die URLs, die besonders häufig von einer Suchmaschine gecrawlt werden, sind für sie am wichtigsten. Soweit die These. Die Häufigkeit wird durch die Art des Contents ebenfalls beeinträchtigt. Ist es informatorisch orientiert – Evergreen Content – dann wird die Suchmaschine nicht so häufig vorbeikommen wie wenn es sich um brandaktuellen Newscontent handelt.
Als Erstes startet man wie immer mit der Auswahl seiner Zeitspanne. Als Nächstes wählt man die „Verified“-Bots aus, die man betrachten möchte. Man wählt den Tab „URLs“ aus. Dort setzt man den Filter auf „HTML“, View „Logfile“.
Man erhält eine Liste an URLs. Scrollt man nach rechts, entdeckt man den Bereich „Num Events“. Weiter rechts sind die Anzahl an Events für jeden Bot einzeln aufgelistet. Diese Liste sortiert man sich am besten absteigend nach „Num Events“.
Jetzt sieht man, welche Seiten in dem Zeitraum am meisten Events haben. Doch Vorsicht! Angenommen, man hat den Filter nicht explizit auf „HTML“ gesetzt, sondern auf „All“, dann wird die Liste ein anderes Ergebnis haben.
TIPP: Wählt man im Filter „Images“ aus, kann man über die Spalte „Average Bytes“ besonders große Bilder ausfindig machen.
Analyse Beispiel 4: Gute vs. böse Bots
Möchte man wissen, wie stark man von fremden Bots gecrawlt wird, fragt man entweder sein IT-Security Team – oder man analysiert Logfiles. Hierzu wählt man den Bereich „User Agents“ aus und stellt einen möglichst großen Zeitraum ein. Anschließend wählt man „All Bots“ und „Verified“ aus.
Nun addiert man alle Events. Angenommen, die Summe beträgt 100.
Nun filtert man die „Spoofed“ User Agents und addiert wieder die Events. Angenommen, die Summe beträgt 25. 25 / 100 = 0,25. Das bedeutet, der Anteil an „bösen Bots“ beträgt für diesen Zeitraum ca. 25 %. Mit diesem Wert in der Tasche kann man sich überlegen, ob es sinnvoll ist, Gegenmaßnahmen einzuleiten.