Google Analytics – automatisierte Datenerhebung mit Pentaho Dataintegration
In Bereichen bei denen täglich neue Daten aus unterschiedlichen Quellen gesammelt und ausgewertet werden ist es sinnvoll Verfahren zu entwickeln, die eine automatisierte Erhebung und Analyse der Vielzahl an unterschiedlichen Daten ermöglichen. In der Webanalyse werden aus verschiedenen Datenquellen wie Tracking-, Controlling-Systeme und bestimmten e-Commerce-Tools in zeitlich unterschiedlichen Abständen Daten erhoben. Arbeiten Webanalysten ohne automatisierte Verfahren, so wächst deren Aufwand mit der steigenden Anzahl an Daten und den damit verbundenen Analysen.
Im folgenden Beitrag wird die Business-Intelligence Software Pentaho Data Integration (PDI, auch Kettle genannt) vorgestellt, mit der automatisierten Datenerhebungs- und Analyse-Verfahren möglich sind. Wir erklären Ihnen, wie Sie unterschiedliche Dimensionen und Metriken aus einem Google Analytics Account entnehmen und wie Sie diese Daten in eine Output-Datei (bspw. Excel) exportieren sowie abspeichern.
Schritt 1: Installation von Pentaho Data Integration
Um die BI-Lösung auf dem Rechner nutzen zu können muss zunächst der folgende Link aufgerufen werden:
https://sourceforge.net/projects/pentaho/
Über den Download-Button kann Pentaho Data Integration heruntergeladen und anschließen installiert werden.
Bemerkung:
Falls Sie Java SE Development Kit 8u77 noch nicht auf Ihrem Rechner installiert haben, ist es notwendig dieses Kit ebenfalls zu installieren. Die Installation ist über folgende Seite möglich:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
Schritt 2: Pentaho Data Integration laden
Nach der erfolgreichen Installation, wird das BI-Tool wie folgt aufgerufen:
- Den Ordner „data-integration“ auf dem Rechner öffnen
- Datei „Spoon“ öffnen (dies ist eine bat-Datei)
Schritt 3: Erste Pentaho Transformation vorbereiten
a) Nachdem Spoon geladen ist kann eine Transformation über den Reiter File | new | Transformation bzw. über CTRL+N erzeugt werden.
Dadurch werden verschiedene Ordner bzw. Objekte sichtbar:
b) Da wir uns in diesem Beitrag mit der automatisierten Datenerhebung aus Google Analytics beschäftigen, wählen wir aus dem Ordner Input das Feld Google Analytics Hierfür klicken wir mit der linken Maustaste einmal auf Input und ziehen das Objekt Google Analytics mit gedrückter linker Maustaste auf die leere Fläche.
c) Anschließend kann über einen Doppelklick auf Google Analytics im Transformationsbereich das Objekt geöffnet werden. In der geöffneten Maske können Sie dadurch Ihre individuellen Daten angeben.
Damit die automatisierte Datenerhebung erfolgen kann, müssen diese folgenden Felder in den Google Analytics Connection Settings ausgefüllt werden:
- OAuth Service Email
- KeyFile
d) Damit wir die Informationen für die oben genannten beiden Felder erhalten, muss an dieser Stelle Pentaho Data Integration zunächst minimiert und folgender Link aufgerufen werden, um auf die Google Analytics Entwicklerumgebung zu gelangen: https://console.cloud.google.com/
Exkurs: Google Analytics API – eindeutiger Schlüssel für den Datentransfer
a) Wurde der oben genannte Link geöffnet erscheint ein Fenster, bei dem Sie einen Projektname angeben sollen. Falls bereits ein anderes Projekt angelegt wurde, muss auf „create a project“ geklickt werden, um Folge Ansicht zu erhalten.
Anstatt „My Project“ kann ein beliebiger Name an dieser Stelle vergeben werden. Beispielsweise „Google Analytics Test API“. Über „Create“ wird die Eingabe bestätigt.
b) Auf der folgenden Seite zeigt der API Manager von Google unterschiedlich viele API für die jeweiligen Produkte an. Wir interessieren uns in diesem Fall für die Google Analytics API, deshalb muss unter „Other popular APIs“ die Analytics API angeklickt werden.
c) Über den „enable-Button“ wird die API aktiviert. Nach der Aktivierung erscheint jedoch folgende Meldung:
Damit wir die API für dieses Projekt auch nutzen können, müssen also noch Zugangsdaten erstellt werden. Dafür ist ein Klick auf „Go to Credentials“ notwendig.
d) Auf der Folgeseite sollte im Anschluss unter „create credentials“ der dritte Punkt „Service account key“ ausgewählt werden.
e) Zur Erstellung dieses Schlüssels kann unter „Service Account“ ein eindeutiger Account Name für eine bessere Übersicht (falls mehrere Schlüssel erstellt werden oder bereits erstellt sind) eingeben werden.
Unter „Key type“ sollte „P12“ ausgewählt werden und mit „create“ sollten Sie die Eingabe bestätigten.
f) Der erstellte Schlüssel muss nun heruntergeladen und auf dem Rechner gespeichert werden. Wird an dieser Stelle der Schlüssel nicht ordnungsgemäß heruntergeladen, gibt es keine Möglichkeit mehr die Datei zu erhalten.
g) Im letzten Schritt klicken wir auf „Manage service accounts“ und notieren uns die „Service Account ID“ sowie die „Key ID“.
h) Anschließend kann die Entwicklerumgebungs-Webseite von Google geschlossen und Google Analytics aufgerufen werden. Je nachdem aus welchem Google Analytics-Konto man Daten erheben möchte, wählt man dieses Konto aus und fügt unter „Verwalten | Nutzerverwaltung“ die erstellte Service Account ID hinzu.
Schritt 4: Erste Pentaho Transformation durchführen
Nachdem alle Schritte im API Manager bzw. Google Developer Console und Google Analytics (Verwaltung) durchgeführt wurden, kann wieder Pentaho Data Integration aufgerufen werden.
a) Wir öffnen wieder „Google Analytics Input Step“ und fügen für das Feld „OAuth Service Email“ die für die Google Analytics API erstellte „Service Account ID“ ein.
b) Nun klicken wir auf „Browse“ neben dem „Key File“ Feld und laden die Datei die wir in der Google Analytics Entwicklerumgebung erstellt haben. (siehe Exkurs).
c) Unter „Application Name“ kann optional noch ein Name für die Applikation vergeben werden.
d) Im letzten Schritt dieser Konfiguration klicken wir auf „Get profiles“ neben dem Feld „get tableld from profile“. Nach wenigen Sekunden ist die Verbindung zu Google Analytics hergestellt.
e) Damit ist die „technische“ Konfiguration abgeschlossen. Darauf aufbauend können wir auswählen welche Dimensionen und Metriken in welchen Zeitraum gezogen werden sollen. Zudem kann festgelegt werden, ob bei bestimmten Daten Filtereigenschaften ausgeschlossen/eingeschlossen werden sollen.
In dieser Voreinstellung werden für den 07.04.2016 alle Visits für die Dimension „Browser“ gezogen.
f) Im letzten Schritt ziehen wir über „Get Fields“ die gewünschten Daten und bestätigen die Auswahl mit „OK“.
g) Dann wird noch eine Output-Datei benötigt. Diese Output-Datei kann eine Excel-Datei, eine Access Datenbank oder ein Visualisierungs-Tool sein. Wir wählen an dieser Stelle die Excel-Datei (Microsoft Excel Output). Dieses Objekt kann erneut mit der gedrückten linken Maustaste nach rechts verschoben werden.
h) Um eine Verbindung zwischen der Input- und Output-Datei zu erstellen gehen wir mit der Maus über der Input-Datei „Google Analytics“ wodurch direkt darunter vier Auswahlmöglichkeiten erscheinen. Wir wählen das vierte Zeichen, ganz rechts. Es wird ein Pfeil angezeigt. Ohne gedrückte Maustaste bewegen wir den Pfeil zur Output-Datei und klicken mit der linken Maustaste darauf. Damit ist die Verbindung hergestellt.
i) Mit Doppelklick auf „Microsoft Excel Output“ können wir optional noch einen Namen für die xls-Datei vergeben und über „Browse…“ noch einen Zielort zum Speichern der Datei angeben.
j) Über das Play-Zeichen können wir nun endlich die Transformation starten.
Anschließend klicken wir bei der nächsten Anzeige „Execute a transformation“ auf „Launch“. Damit wird die Excel-Datei mit den gewünschten Daten befüllt und am Zielort abgespeichert.
Diese Datei kann nun im Zielordner geöffnet werden.
Damit haben wir gemeinsam eine kleine Excel-Datei erstellt, ohne uns in Google Analytics anmelden zu müssen. Natürlich können noch jede Menge weitere Metriken, Dimensionen, aber auch mathematische Funktion (u.v.m.) eingefügt und ausgeführt werden. In den nächsten Artikeln werden wir Stück für Stück die Komplexität der Datenerhebung und Datenanalyse mit Pentaho Data Integration anheben.