Beim Klick auf den nach rechts zeigenden Pfeil verschiebt sich die ausgewählte Datenansicht auf die rechte Fensterseite.
Danach kann das Pop-up-Fenster wieder geschlossen werden.
Unter Format findet man weiter rechts eine Dropdown-Liste für die Auswahl eines Ausgabeformats für die Exportdatei. Hier wählt man sinnigerweise „gsheet“ aus. Anschließend muss man dem SF natürlich erlauben, Daten auf dem Google Drive zu speichern. Beim Klick auf „Manage“ wird daher ein Fenster geöffnet, wo man aus den bereits vorhandenen bzw. bereits benutzten (eigenen) Google-Konten eines auswählen oder auch ein neues hinzufügen kann. SF leitet so transparent durch die Prozedur, dass bei jedem Schritt Klarheit über das nötige Vorgehen vorhanden ist.
Jetzt ist das Set-up des automatischen Crawls abgeschlossen – ein Klick auf „OK“ und der Projektname erscheint im Fenster mit der Liste aller automatischen Crawls.
Nach getaner Arbeit muss im Google Drive im entsprechenden Ordner eine neue Datei namens „internal_all“ erscheinen. Diese Datei muss, um später eine passende Datenquelle für das Data Studio zu werden, noch einige Anpassungen erfahren. Darum geht es im Folgenden.
Google Sheets: Erstellung einer Datenquelle für GDS
In Google Drive liegt nun ein Google-Sheets-Dokument, das sich nach jedem Crawl aktualisiert bzw. ergänzt. Da bewusst nach einer URL-Liste gecrawlt wird, bleibt die Anzahl der Zeilen und Spalten im Sheet 1 immer gleich.
Damit eine GDS-Datenquelle sich für die Erstellung von „Time-Series“-Charts eignet, müssen im vorliegenden Kontext zwei Bedingungen erfüllt sein:
- Jede Datenzeile muss ein Datum haben.
- Die Crawl-Daten müssen so archiviert werden, dass sie in einem anderen Tab immer untereinander geschrieben werden, nachdem die neuen Daten nach dem jeweils nächsten Crawl erscheinen.
Die Bedingung 1 ist erfüllt – wie erwähnt, enthält seit Neuestem die SF-Datenansicht internal_all in jeder Zeile das Datum und die Uhrzeit des Crawls (Crawl_timestamp), und zwar praktischerweise gleich in einem von Google Sheets erkennbaren Format.
Um die Bedingung 2 zu erfüllen, sind einige vorbereitende Modifikationen nötig.
Archive Data: Add-on finden und installieren
Ana Kravitz (https://mixedanalytics.com/) entwickelte ein Google Sheets Add-on „Archive Data“ (ladbar unter einfach.st/anakravitz), das ziemlich genau das gesetzte Ziel erfüllt. Das Add-on muss installiert werden – es kostet nichts.
Archivierungseinstellungen
Nach der Installation des Add-ons von Ana Kravitz wechselt man in die Datenansicht. Der Inhalt der Datei sieht ungefähr so aus:
- Spalte A: „Address“, es sind die gecrawlten URLs
- Spalte B: Content Type
- Spalte C: Status Code
- Spalte D: Status
Dann folgen viele Spalten mit den Spaltenüberschriften von SF, aber ohne Inhalte, und weiter rechts, als letzte drei Spalten, folgen dann:
- Time to First Byte mit den gecrawlten Werten
- URL Encoded Address – noch einmal die URLs, und, als letzte Spalte
- Crawl Timestamp mit dem Datum und der Uhrzeit.
Hinweis: Alle folgenden Schritte müssen in der exakt beschriebenen Reihenfolge ausgeführt werden:
- Einen neuen Tab erstellen
- Den neuen Tab als „Archiv1“ umbenennen
- Im Sheet1 die Zeile 1 mit den Spaltenüberschriften kopieren und im Archiv 1 in die Zeile 1 einsetzen
- Archiv-Einstellungen öffnen: Add-ons → Archive Data → Manage