Big-Data-Plattform Hadoop bei Runtastic

Vor ein paar Tagen habe ich einen Pressetext rein bekommen, den ich euch nicht vor enthalten will. Es geht um den Mobile-Health- und Fitness-App-Anbieter Runtastic, der eine Big-Data-Plattform einführt.


Anzeige

Hier einfach mal ein paar Textauszüge aus dieser Pressemitteilung: Der Dienstleister Consol Consulting & Solutions Software GmbH gibt bekannt, dass er beim internationalen Mobile-Health- und Fitness-Unternehmen Runtastic eine neue Big-Data-Plattform auf Basis von Apache Hadoop einführt. Geplant sei der Ausbau der Plattform als „Data Lake“, auf dessen Basis die Data Scientists von Runtastic zukünftig arbeiten werden. Durch die skalierbare Cluster-Lösung soll vor allem das vorhandene Data Warehouse, das mit dem rasanten Datenwachstum nicht mehr Schritt halten kann, entlastet werden. Ebenso erlaubt die neue Plattform wesentlich schnellere und komplexere Datenanalysen – auch im Parallelbetrieb – als dies im vorhandenen Data Warehouse möglich wäre.

Investitionsschutz durch flexible Skalierbarkeit

Runtastic bietet Produkte und Dienstleistungen rund um die Erfassung und Verwaltung von Sportdaten an. Die Daten werden auf Runtastic.com geladen, wo sich die Nutzer ihr Trainingstagebuch ansehen können, Zugang zu detaillierten Analysen haben und sich mit der Community beispielsweise via Facebook-Synchronisierung austauschen können. Bei weltweit rund 80 Millionen registrierten Nutzern entstehen dabei täglich rund 10 GB an Rohdaten.

Die von Runtastic generierten Daten wurden bislang in einem MS SQL Server basierten Data Warehouse (DWH) abgelegt und analysiert. Mit steigender Nutzerzahl und dem rasanten Wachstum der Datenmenge stieß diese Lösung jedoch an ihre Grenzen. Anstatt die vorhandene DWH-Lösung auszubauen, hat sich Runtastic entschieden, Teile der Funktionalität des DWH in einem Hadoop-Cluster zu realisieren. Dieser speichert die Rohdaten und bereitet sie so auf, dass sie weiterverarbeitet werden können. Auf diese Weise kann das bestehende DWH-System weiter genutzt werden – eine teure Erweiterung oder Neu-Installation wird vermieden.

Rohdaten, welche vor allem aus Sportdaten der Nutzer sowie Event-Daten bestehen, werden instantan im Cluster gespeichert. Ebenso lädt Runtastic bereits bestehende Daten aus dem DWH sowie aus Azure in das Cluster. Liegen dort alle Daten im Rohformat vor, ist es einfach, Analysen zu fahren und zukünftig neue Funktionalitäten auf dem Hadoop-Cluster zu implementieren, wie komplexe Algorithmen, etwa um Sportprofile einzelner Nutzergruppen erstellen zu können.

Manchmal fallen Puzzlestückchen einfach so ins Bild und erlauben einen Gesamteindruck. Ich hatte hier auf dem Schmierzettel schon länger Runtastic testen und im Blog vorstellen stehen (u.a. weil es Leseranfragen/-anregungen diesbezüglich gab). Was mich immer wieder zucken ließ: Dass ich mich bei Runtastic ganz schnell in einer Anmeldemaske wiederfand, wo ich ein Profil erstellen und die Daten hochladen sollte. Wollte ich nicht – dass es auch anders geht, habe ich nach vielen Versuchen erfahren. Der Anbieter war mir daher suspekt und ist mehr oder weniger links liegen gelassen worden. Und letzten Sonntag gab es den Blog-Beitrag Fitness-Tracker: Die Daten und die Krankenkassen. Es mag sein, dass die Hadoop-Ansätze von Runtastic ganz harmlos sind – aber mir währe nicht wohl dabei, meine Fitnessdaten bei denen gesammelt zu wissen.


Anzeige
Dieser Beitrag wurde unter Wearables abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (SEO-Posts/SPAM lösche ich). Kommentare abseits des Themas bitte unter Diskussion.