Europameister: Google Trends

von Karl-Kuno Kunze

Heute in einem Monat beginnt die Europameisterschaft in Frankreich. Grund genug, einmal eine passende Zeitreihenanalyse durchzuführen: Wie oft wird in Deutschland nach den Schlagwörtern Weltmeisterschaft und Europameisterschaft gesucht?

Mit der gebotenen Vorsicht lässt sich sagen, dass

  • Europameisterschaft auf geringeres Interesse trifft und
  • die Zahl der Suchanfragen für Weltmeisterschaft im Jahr 2014 alle anderen weit übertrifft
  • Die Anzahl der Suchanfragen in den Sommern der Veranstaltungsjahre besonders hoch ist.

Also auch in dieser Hinsicht wird der Sommer spannend: Wird auch Europameister die Suchen der vergangenen Jahre weit überragen? Finden Sie es selbst heraus mit der folgenden Anleitung. Die zugehörige R-Datei finden Sie hier.

Seminartipp: Im Herbst 2016 findet das Seminar Datenvisualisierung des R Institute statt. Schreiben Sie an mail@r-institute.com, wenn wir Sie für eine Teilnahme unverbindlich vormerken sollen.

Die Daten

Mit einem Benutzerkonto bei Google lassen sich die Anfragen auf Google-Trends nicht nur anzeigen, sondern auch herunterladen. Nachdem die Daten geladen sind, werden sie noch in ein geeignetes Format umgewandelt.

Daten von Google herunterladen.

Zunächst laden wir Daten von Google Trends herunter. Wie das genau funktioniert, können Sie hier nachlesen.

Unsere Anfrage auf Google Trends liefert die deutschen Suchanfragen auf Google nach “Weltmeister” oder “Europameister”. Die Daten werden als csv-Datei bereitgestellt. Hier finden Sie die Originaldatei und hier eine Datei, die für die Analyse aufbereitet wurde (Im Wesentlichen wurden nur Zeilen am Anfang und am Ende entfernt). Diese Datei legen wir unter dem Namen Google_EM_WM.csv im Arbeitsverzeichnis ab.

Daten einlesen und aufbereiten.

Mit head können wir uns die Struktur der Datei ansehen. Die Anfragen sind nach Wochen aufgezeichnet. Aus der Spalte der Wochen ziehen wir uns die ersten zehn Zeichen heraus und wandeln diese in Datumswerte um. Diese werden als neue Spalte an den Datensatz angefügt.

# Daten einlesen
myData <- read.csv(file = "Google_EM_WM.csv")
# Struktur ansehen
head(myData,1)
##                     Woche weltmeister europameister
## 1 2004-01-04 - 2004-01-10           1             0
# Erstes Datum extrahieren und umwandeln
wAnfStr <- substr(myData$Woche, 1, 10)
wAnfDat <- as.Date(wAnfStr)
# Eine weitere Spalte mit dem Datum an den Datensatz anfügen
myData$wAnf <- wAnfDat
# Neue Struktur ansehen
head(myData,1)
##                     Woche weltmeister europameister       wAnf
## 1 2004-01-04 - 2004-01-10           1             0 2004-01-04

Die Grafik

Mit einfachen Bordmitteln lässt sich aus den Zeitreihen eine ansehnliche Grafik erstellen. Dabei verwenden wir nur die Basisfunktionen für Grafik in R.

Die Ausgabe festlegen und das Layout einstellen.
Die Ausgabe soll in eine png-Datei mit dem Namen Grafik.png erfolgen. Um das Ausgabeformat festzulegen, verwenden wir die Funktion png(). Alternativen dazu können Sie in der Quelldatei finden. Kommentieren Sie einfach aus, welches Format Sie nicht benötigen. Mit der Funktion png()legen wir verschiedene Ausgabeparameter fest, dazu gehören Ränder, Schriftgrößen und -arten und dergleichen mehr. Hier legen wir auch fest, dass wir zwei Diagramme übereinander anordnen wollen: mfcol = c(2,1).

# Ausgabe festlegen
png(bg = "grey98", filename = "Grafik.png", width = 600, height = 400)

# Layout für Grafik erzeugen
par(omi = c(0.5,0.35,0.25,0.5), mai = c(0.25, 0.75, 0.75, 0.25), mfcol = c(2,1),
    cex = 0.7, mgp=c(4,1,0), family = "Lato Light", las = 1)

Nach der ganzen Vorbereitung können wir die Diagramme erzeugen. Dabei tragen wir die Anzahl der Suchanfragen über den jeweiligen Wochenanfang auf. Auch die Titel fügen wir hier hinzu.

# Grafik erstellen
plot(myData$wAnf, myData$weltmeister, type = "l", col = "darkblue",
     xlab = "", ylab = "Index Suchanfragen", cex.axis = 1.3, cex.lab = 1.3)
mtext("'Weltmeister'", 3, line = 1, adj = 0, cex = 1.1, col = "darkblue",
      family = "Lato Black")
# Titel
mtext("Google Suchanfragen von 2004 bis 2016",3, line = -2, adj = 0, cex = 1.5, family = "Lato Black", outer = T)
mtext("Wochenwerte. Quelle: www.google.com/trends",1, line = 1, adj = 1.0, cex = 0.85, font = 3, outer = T)

plot of chunk unnamed-chunk-3

plot(myData$wAnf, myData$europameister, type = "l", col = "darkred",
     xlab = "", ylab = "Index Suchanfragen", cex.axis = 1.3, cex.lab = 1.3)
mtext("'Europameister'", 3, line = 1, adj = 0, cex = 1.1, col = "darkred",
      family = "Lato Black")

plot of chunk unnamed-chunk-3

Wenn Sie ein sogenanntes Grafik-Device öffnen, zum Beispiel mit der Funktion png(), müssen Sie es am Schluss wieder schließen. Das geht immer mit der Funktion dev.off(). Diese können Sie gern so oft aufrufen, bis eine Fehlermeldung erscheint.

# Grafik schließen
dev.off()

Anmerkungen
Google verrät Ihnen nicht die absolute Häufigkeit der Anfragen. Die absolut höchste Anzahl von Anfragen erhält den Indexwert 100 und alle anderen Werte werden entsprechend skaliert. Achten Sie auf die unterschiedlichen Skalen der y-Achsen in den Diagrammen. Wenn Sie jede Anfrage einzeln auf 100 skalieren wollen, müssen Sie getrennte Abfragen durchführen.

Die Schrift Lato Black können Sie unter LatoFonts.com herunterladen. Auf manchen Betriebssystemen funktioniert das Device pdf() oder png() nicht mit zusätzlichen Schriften wie dieser. Sie können dann auf das Paket Cairo zurückgreifen oder die Funktionen cairo_pdf oder cairo_ps verwenden. Diese funktionieren plattformunabhängig. Sie können allerdings auch auf die Verwendung der Schrift und mancher Effekte verzichten.

Zusammenfassung

Mit einfachen Mitteln konnten wir eine Analyse auf Google-Trends durchführen. Nicht überraschend gibt es im Sommer der Jahre 2006, 2010 und 2014 deutliche Spitzen bei der Suche nach ‚Weltmeisterschaft‘. Analog sind die Spitzen der Anfragen für ‚Europameisterschaft‘ in den Sommern der Jahre 2004, 2008 und 2012 am höchsten. Es gibt eine Korrelation zwischen den Anfragen: immer wenn die eine stattfindet, wird auch nach der anderen gesucht. Wenn Sie Zeit haben, sehen Sie sich gern einmal die anderen Spitzen und mögliche Ursachen an.

Der Code in diesem Artikel sollte das Titelbild erzeugen. Führen Sie doch ähnliche Analysen mal mit Ihrem Firmennamen, oder anderen interessanten Schlagwörtern oder Kombinationen durch. Viel Spaß!

________________________________________________________________________________________________

Sie sind an weiteren Tipps über die Programmiersprache R interessiert? Tragen Sie sich in unseren Newsletter ein und bleiben Sie auf dem Laufenden.

Interesse an einem Seminar beim Autor Karl-Kuno Kunze? Hier gelangen Sie zu unseren Trainings in Potsdam. Optional auch in Ihrem Unternehmen vor Ort. Sprechen Sie uns an!