Pierre Laub endurance & creativity

Teaser: FIT-Daten effizient analysieren – Mein privates Data-Analytics-Projekt

Teaser: FIT-Daten effizient analysieren – Mein privates Data-Analytics-Projekt

Du fragst Dich, wie man über 2.000 FIT-Binärdateien (GPS, HR, Power) zuverlässig in ein Dashboard überführt?

Ich zeige Dir, wie ich eine optimierte Hybrid-Architektur für dieses Projekt aufgesetzt habe, um die Herausforderungen großer Datenmengen im Google Cloud Free Tier zu meistern:

  • Lernziel Idempotenz: Meine Python-ETL-Pipeline auf Linux nutzt SHA-256 Hash-Checks, um sicherzustellen, dass keine Aktivität zweimal verarbeitet wird – ein wichtiger Schritt für die Datenintegrität.
  • Lernziel Optimierung: Das BigQuery Data Warehouse wird durch Partitionierung/Clustering so effizient wie möglich eingerichtet. Das Ziel ist es, analytische Abfragen über die 5 Millionen von Zeitreihen-Datenpunkten schnell und kostensparend durchzuführen.
  • Lernziel Kostenkontrolle: Ein gecachtes API-Backend (Python/Flask) auf Linux fängt die meisten Anfragen ab und dient als notwendige Kostenschranke vor BigQuery.

Folge der Doku und lerne, wie Du ein robustes und ressourceneffizientes Data-Analytics-Setup für Deine privaten Projekte bauen kannst!

Hier geht es zum ersten Teil der Serie: Python ETL-Pipeline: FIT-Daten effizient in BigQuery analysieren