Offene Plattform für fortschrittliche Verkehrsprognosen aus heterogenen Daten.


Über das Projekt

Über das Projekt


Das Bundesministerium für Verkehr und digitale Infrastruktur (BMVI) stellt mit seiner mCLOUD Plattform einen großen Datenschatz zur Verfügung: welche Straßen, Schienen oder Seewege wann wie stark ausgelastet sind, ist hier für jedermann nachvollziehbar. Doch sind die vielen Dateiformate und unterschiedlichen Sortierungen alles andere als praktisch, wenn dieser Datenschatz mittels Data Mining gehoben werden soll. Eine einfache, homogenisierte Schnittstelle muss entwickelt werden, um effektiv mit den Daten arbeiten zu können.

Ziel

Das Projekt OPA_TAD hat zum Ziel, die Nutzbarkeit und den Zugang zur mCLOUD zu verbessern und den Nutzerkreis auch über Verkehrsexperten hinaus zu erweitern. Hierzu wird mittels einer Big Data-Infrastruktur eine Funktionalität bereitgestellt, um Daten einfach, homogen und strukturiert abrufen und analysieren zu können. Zudem wird das Hochladen eigener Daten in die mCLOUD (natürlich unter Wahrung der notwendigen Privacy) unterstützt.

Schließlich wird die enorme Power der umfassenden Datensammlung der mCLOUD demonstriert, indem mittels historischer Daten Verkehrsprognosen erstellt und Stauvorkommen auf Deutschlands Straßen identifiziert und analysiert werden – in Abhängigkeit von z. B. Wetterbedingung, Tageszeit, Wochentag und etwaigen besonderen kalendarischen Ereignissen.

Zur Durchführung arbeitet das Konsortium an der Implementierung einer umfassenden Big Data-Infrastruktur, erstmals mit der Möglichkeit, datenschutzkonform private Daten mit in die Verarbeitung einzubeziehen. Eine darauf aufsattelnde Data Science-Plattform ermöglicht dann die einfache Analyse der Daten für jedermann.

Datenplattform

Das Zentrum des Systems bildet die Big Data-Infrastruktur, die auf einem Servercluster betrieben wird. Sie dient sowohl der Speicherung der Daten als auch der Durchführung der Datenauswertungen, die von der Data Science-Plattform ausgestellt werden. Die Rolle des Datenspeichers übernimmt Apache HBASE, das auf dem HDFS-Dateisystem aufgesetzt ist. Die Data Science-Plattform ist eine Eigenentwicklung und basiert auf den Funktionalitäten von Apache Spark.
An dieser Stelle tritt die wesentliche Innovation des Projektes auf: die datenschutzkonforme Kombination von öffentlichen und privaten Datensätzen. Dieser Ansatz ist bisher nur in sehr spezialisierten Einzelimplementierungen machbar. Ziel des Projektes ist es, eine Open Source-Referenzlösung hierfür zu entwickeln, was als völlig neuartig angesehen werden kann. Die Idee, die dahintersteckt, kann wie folgt beschrieben werden: Der Anbieter der privaten Daten entscheidet, mit wie vielen anderen privaten Datenlieferungen er seine Daten zusammengefasst (aggregiert) zu Analysezwecken freigeben will. Der Anwender, der diese Daten auswerten will, muss dafür sorgen, dass dieses Mindestaggregationsniveau in seinem Analyseprozess zu jedem Zeitpunkt gegeben ist. So kann sichergestellt werden, dass im Analyseprozess keine Informationen gewonnen werden, die einer Person eindeutig zugeordnet werden können. Dafür ist eine neuartige Implementierung der gewöhnlichen Data Mining-Analysefunktionen, wie "Join", "Filter" u. a. notwendig. Ein Einblick in die privaten Daten ist in keiner Form vor einer Aggregation möglich. Die Implementierung dieser Datenanalysefunktionen erfolgt in der Programmiersprache Java.

Der Datentransfer zwischen Anbietern und Plattform erfolgt für private bzw. offene Daten über Public und Private APIs. Beide Zugangspunkte werden als RESTful Webservice APIs implementiert, so dass die Anbieter ihre eigenen Datenbestände über eine Weboberfläche verwalten können.

Die Erstellung der Analyseprozesse ist mithilfe der Data Mining-Software RapidMiner und der OPA_TAD RapidMiner Extension möglich. Der Analyseprozess wird von RapidMiner aus an die Infrastruktur geschickt, wo er über einen Job Scheduler ausgeführt wird. Im Design des Analyseprozesses kann nur auf offene Daten direkt zugegriffen werden, für die privaten Daten werden lokal auf dem Anwenderrechner zufällige Daten generiert. So kann der Prozess lokal getestet werden, damit er korrekt auf der Infrastruktur unter Verwendung der privaten Daten ausgeführt werden kann.
Zur Demonstration der Möglichkeiten der Plattform wird eine beispielhafte Anwendung implementiert. Hierbei geht es um die Prognose des Verkehrsaufkommens auf deutschen Autobahnen. Der Mobilitätsdatenmarktplatz (MDM) liefert im Minutentakt Daten zu Verkehrsstärken und aktuellen Geschwindigkeiten an bestimmten Zählstellen auf Autobahnen. Über eine eigenentwickelte App können User ihre Bewegungstrajektorien auf die Plattform hochladen, wo sie mit offenen Daten verknüpft werden. Aus den gesammelten Daten können Aussagen über die Auslastung und mögliche Reisezeitverzögerungen getroffen werden. Dazu werden auch andere Datenbestände herangezogen, wie u. a. Baustellen, Sperrungen oder kalendarische Ereignisse.

Nach oben

Technologien



Nach oben

Timeline


Nach oben

Projektpartner


Bochumer Institut für Technologie gGmbH


Institut für Informatik der Hochschule Bochum


Old World
Computing UG


Secunet Security
Networks AG


Nach oben

Anschrift & Kontakt


Marc Otten
Projektmanagement OPA_TAD
E-Mail: marc.otten@bo-i-t.de
Telefon: +49 234 45 979 727
Universitätsstraße 105
44789 Bochum


Nach oben