26.07.2017 Datenqualität als zentraler Erfolgsfaktor von Web-Analyse-Software

Symbolbild

Am Institut Internet-Technologien & -Anwendungen der FH JOANNEUM beschäftigt man sich derzeit intensiv mit der Verbesserung der Datenqualität von Web-Analyse-Software.

Industrie 4.0, Kryptowährungen, IoT, Apps; sog.Buzzwords“ die unsere Ankunft im digitalen Zeitalter bestätigen. Der fortschreitende Technologiewandel beeinflusste jedoch nicht nur industrielle Aspekte unserer Welt, sondern auch mit weitreichenden Konsequenzen die Kundenkommunikation sowie den Handel. So ist eine Folge dieses technischen Wandels, dass der Online-Einkauf am Smartphone dem klassischen Shopping in der Einkaufspassage oftmals bevorzugt wird. Dies führt wiederum dazu, dass Unternehmen den physischen „Customer Touchpoint“ vor Ort im Geschäft verlieren und der Kundenkontakt weitgehend entfremdet. Diesem Risiko steht die Möglichkeit gegenüber, gezielt ein Nutzerprofil des Surfverhaltens von Besucherinnen und Besuchern aufzuzeichnen (sog.Tracking“). Das ist auch die Grundidee von Google Analytics, Kissmetrics, Piwik und vergleichbaren Produkten. Gegenwärtig ist Tracking im Hinblick auf den Datenschutz ein heikles Thema, und trotzdem, so scheint es, befinden sich Web-Analyse-Tools weiter auf dem Vormarsch.

Am Markt findet sich ein breites Spektrum an kostenlosen sowie kostenpflichtigen Produkten, welche Kundinnen und Kunden aussagekräftige Metriken über das Benutzerverhalten der Besucherinnen und Besucher ihrer Website versprechen. Diese Metriken werden in weiterer Folge meist von den Betreiberinnen und Betreibern der Website zur Optimierung des Online-Dienstes oder auch zu Werbezwecken herangezogen. Welche Datenqualität garantiert nun aber der Anbieter einer Web-Analyse-Software, um folglich das Produktversprechen einzuhalten?

Diese Frage verdient große Beachtung, insbesondere wenn anhand der gesammelten Metriken, welche vom Web-Analyse-Tool bereitgestellt werden, unternehmenswichtige Entscheidungen getroffen werden sollen. Für die Beantwortung dieser Frage muss die Funktionsweise der Anwendung einer genaueren Prüfung unterworfen werden. Primär sei abzuklären, ob es sich bei dem Tracking-Mechanismus um einen rein Client-basierten, Server-basierten oder hybriden Ansatz handelt. Am weitesten verbreitet ist der Client-basierte Ansatz, dem sog.Page Tagging". Hierbei wird ein JavaScript-Snippet in die Website eingebunden, welches den Tracking-Code entweder nachlädt oder beinhaltet und bei Abruf der Website im Browser des Besuchers ausgeführt wird. Die erhobenen Daten werden dann an einen Server transferiert, welcher i.d.R. vom Anbieter der Web-Analyse-Software betrieben wird, so auch bei Google Analytics. Aus Anwendersicht bietet dieses Verfahren einerseits den Vorteil, dass die Einführung von Tracking mit einem geringen Ressourcenaufwand verbunden ist (minimale Änderungen der Website, oftmals kein Hosting der Web-Analyse-Software erforderlich) und andererseits dank JavaScript ein breites Spektrum an Benutzerinformationen (konfigurierte Sprache, installierte Browser-Plugins, Bildschirmdaten etc.) erfasst werden kann. Dieser Tracking-Ansatz weist hingegen zwei erhebliche Schwachstellen auf: Erstens können Benutzerinnen und Benutzer nur dann erfasst werden, wenn der Browser JavaScript-Code ausführt. Folglich ist kein Tracking möglich wenn beispielsweise JavaScript in den Browsereinstellungen deaktiviert ist oder auch wenn statische Dateien, wie etwa PDF-Dokumente vom Server geladen werden. Zweitens kann in böswilliger Absicht der digitale Fußabdruck verfälscht werden. Diesbezüglich muss differenziert werden, inwieweit eine Manipulation negative Auswirkungen auf die Qualität des Datenbestandes hat. So können nicht nur Detailinformationen des aufgezeichneten Verhaltens zur Wahrung der Privatsphäre des Besuchers verfälscht werden (etwa mittels eines Browser-Plugins welches Surfverhalten maskiert), sondern auch ein Vortäuschen von ganzen Aktionen ist in trivialster Weise möglich. Als Beispiel aus der Praxis dient die nachfolgende Abbildung, welche den Missbrauch einer Google Analytics Metrik als Werbe- und Propagandamittel darstellt (offensichtlich verfälschte Werte sind in Rot hervorgehoben) und die aufgezeigte Problematik verdeutlicht.

Abbildung: Google Analytics Spoofing Abbildung: Google Analytics Spoofing

An dieser Stelle sei angemerkt, dass für ein sog. „Spoofing“, also Vortäuschen von Interaktionen mit der Website bei Client-basiertem Tracking die Website selbst nicht abgerufen werden muss, sondern direkt vom Angreifer ein Request an den Server, auf dem die Web-Analyse-Software betrieben wird, gesendet werden kann. Im Fall von Google Analytics erfolgt dies über das „Measurement Protocol“, welches den Transfer von Tracking-Daten an Google Analytics Server mittels HTTP(S)-Requests erlaubt. Um nun Tracking-Daten verfälschen zu können, muss ein Angreifer lediglich die Tracking-ID des Opfers ermitteln und kann in weiterer Folge die Parameter des Measurement Protocol nach Belieben mit Werten versehen. Als schützenswert gilt daher primär die Tracking-ID, da mit diesem Identifikator der Request mit dem Google Analytics Benutzerkonto verknüpft wird. Dies stellt sich jedoch als fundamentales Design-Problem heraus, da die Tracking-ID im Tracking-Script enthalten ist und öffentlich von der Website abgerufen werden kann. Um die Bedeutung dieses Problems zu demonstrieren wurde am Institut Internet-Technologien & -Anwendungen der FH JOANNEUM ein PoC entwickelt, welches als Kommandozeilenprogramm eine Schnittstelle zum Measurement Protocol bildet. So können mithilfe der Anwendung beispielsweise beliebig viele Events vorgetäuscht werden, ohne diese Interaktionen auf der Website des Opfers tatsächlich durchzuführen. In diesem Zusammenhang darf nicht außer Acht gelassen werden, dass diese Sicherheitsproblematik mehrere weitere Angriffsvektoren eröffnet. So könnten etwa Hackerangriffe vorgetäuscht oder auch Phishing-Websites als Referrer für Pageview-Events verwendet werden um Betreiberinnen und Betreiber der Website zu unüberlegten Maßnahmen zu bewegen, die ein vollständiges Kompromittieren der Website ermöglichen würden.

Obwohl Google Analytics eine Filterfunktion anbietet, liefert diese Gegenmaßnahme ein unbefriedigendes Ergebnis, da einerseits das Anlegen von Filtern mit manueller Arbeit verbunden ist und andererseits die Effektivität der Maßnahme unzureichend ist. Um dieser Form des Spamming konsequent Einhalt zu gebieten, müssten Filter kontinuierlich adaptiert werden, sodass auf neue Angriffswellen entsprechend reagiert werden kann. Basierend auf diesen Erkenntnissen wird derzeit am Institut Internet-Technologien & -Anwendungen der FH JOANNEUM, mit dem Ziel einen wesentlichen Beitrag zur Verbesserung der Datenqualität von Web-Analyse-Software zu leisten, geforscht. Im Zentrum der Forschungsarbeit steht die Entwicklung eines Prototyps, welcher Benutzerinnen und Benutzern nicht nur die Möglichkeit bietet einzelne Interaktionen mit der Website aufzuzeichnen, sondern auch die Wahrung der Datenqualität von Grund auf in der Systemarchitektur berücksichtigt. Aus diesem Grund wurde für diesen Prototyp der hybride Tracking-Ansatz implementiert, der die Vorteile aus beiden Welten vereint. Neben einem Tracking-Script kommt daher auch ein Serverdienst zum Einsatz, welcher als Reverse Proxy fungiert, um das Tracking vollständig vom Webserver abzukoppeln. Client-Requests werden daher vom Reverse Proxy entgegengenommen und an den Webserver weitergeleitet, welcher den Response an den Reverse Proxy schickt und dieser in weiterer Folge die Antwort an den Client weiterleitet. Jeder Response, sofern der Content-Type HTML entspricht, wird vom Reverse Proxy modifiziert, um das Tracking-Script und einen HMAC einzufügen. Pageview-Events werden über diese Vorgehensweise signiert und können dem vorangegangenem Request eindeutig zugeordnet werden, da der HMAC für jeden Request neu generiert wird. Dank diesem Verfahren kann verhindert werden, dass in böswilliger Absicht Pageview-Events gesendet werden, ohne jemals die Website besucht zu haben. Dieser Schutzmechanismus wurde bereits von dem Unternehmen spider.io im Jahre 2011 vorgeschlagen [http://www.spider.io/blog/2011/10/the-problem-with-client-side-analytics] und diente als Ausgangspunkt auf den sich weitere Forschungsarbeit stützt. So erlaubt der hybride Tracking-Ansatz eine Korrelation von Client- und Server-Events um das Surfverhalten des Clients einzuschätzen.

Im Fokus weiterer Forschung steht neben der Weiterentwicklung der klassischen Web-Analyse auch die Optimierung der Netzsicherheit. So soll beispielsweise bei verdächtigem Surfverhalten der Zugriff zum Webserver beschränkt werden. Zudem müssen auch rechtliche Aspekte im Hinblick auf die DSGVO geprüft werden.

Autor:

Matthias Eckhart, FH JOANNEUM

Datum der Veröffentlichung: 26.07.2017

Für den Inhalt verantwortlich:
  • FH JOANNEUM