Datenpipelines: Neue Maßnahmen gegen die letzten verstopften Meter

Unsere Datennetzwerke sind heute sehr gut ausgebaut: Während also die Daten durch die Pipelines gut und größtenteils ungehindert fließen können, hakt es schließlich auf den letzten Metern. Firewalls, Security und die Einschränkungen, die sich durch die verarbeitende Software ergeben, verlangsamen die Verarbeitungsprozesse. Mit einem neuen H2020-Projekt wird ein Forschungsteam am Institut für Informationstechnologie unter der Leitung von Radu Prodan nun an neuen Maßnahmen gegen die letzten verstopften Meter arbeiten.

„Wir setzen mit unserem Projekt auf mehreren Ebenen an“, erklärt Radu Prodan, der das Projekt an der Universität Klagenfurt leitet. Die erste Ebene ist die so genannte dark data. Prodan erklärt dazu: „Es werden wesentlich mehr Daten generiert, als wir auch tatsächlich nutzen. Die Branche schätzt, dass etwa 80 Prozent der Daten wertlos sind, und ihre Aufbewahrung birgt für Unternehmen mehr Risiken als Nutzen.“ Gelingt es nun mittels process mining, die Struktur der Daten zu identifizieren, sie den zuständigen Prozessen zuzuweisen und wertlose Daten zu verwerfen, wird der Gesamtprozess effizienter und sicherer. Dies, so Prodan, erfordere ein Überdenken des gesamten Software-Stapels, beginnend mit neuen domänenspezifischen Programmiersprachen.

„Programmiersprachen sind in der Informatik ein heikles Thema. Vieles wird noch immer mit einer alten, oft sogar veralteten, Sprache programmiert. Die Anforderungen werden aber immer diverser, es ist daher nicht davon auszugehen, dass eine einzelne Sprache für alles gut einsetzbar ist“, so Prodan. Dementsprechend wird das Forschungsteam verschiedene Sprachen für jeden der Schritte in der Big-Data-Workflow-Verarbeitungspipeline vorschlagen.

In einem dritten Schritt werden die Forscher*innen schließlich simulieren, wie die neue Technologie funktioniert. Ein Simulator wird die Pipelines so gut als möglich nachstellen, um zu überprüfen, wie sich das System in realen Bedingungen verhält. Dabei orientiert sich das Forschungsteam an fünf Anwendungsfällen, die am Projekt teilhaben: Zwei Unternehmen sind in der Industrie 4.0. angesiedelt, ein Beispiel beschäftigt sich mit multimedialen Sportübertragungen, eines mit digitalem Marketing und ein Fallbeispiel nimmt das Management von elektronischen Gesundheitsdaten in den Blick.

Allen Anwendungsfeldern ist gemeinsam: Sie wollen die Datenverarbeitung schnell und effizient lösen. Dabei erweist sich die Idee des cloud continuum als hilfreich. Radu Prodan erklärt dazu: „Wir alle kennen und nutzen heute cloud computing, also beispielsweise die Cloud-Dienste von Google, Amazon, Microsoft etc. Dies bedeutet, dass die Daten zentral gespeichert und verarbeitet werden, was Bedenken hinsichtlich der Sicherheit und des Datenschutzes aufwirft. Das Konzept des cloud continuum geht hingegen davon aus, dass wir alle kleine Mini-Clouds in Form unserer Smartphones oder anderer Endgeräte mit uns führen. Diese Ressourcen werden genutzt, damit die Daten in den Händen des Besitzers bleiben und die Datenverarbeitung vertraulich, verlässlich und demokratisch organisiert mittels Blockchain erfolgt. Wir schlagen also ein demokratisches System auf der Ebene der Ressourcen vor.“

Das Projekt mit dem Titel „DataCloud: Enabling the Big Data Pipeline Lifecycle on the Computing Continuum” wurde während des Lockdowns im Frühjahr 2020 verfasst und mit maximaler Punktezahl (15 von 15) durch die EU-Förderschiene Horizon2020 genehmigt. Insgesamt wurden 96 Anträge eingereicht; nur 5,2 Prozent von ihnen wurden akzeptiert. Das Forschungsteam wird drei Jahre lang daran arbeiten. Das Projekt verfügt über ein Gesamtbudget von 5 Millionen Euro. Die Koordination liegt bei SINTEF AS, einem unabhängigen norwegischen Forschungsinstitut. An Bord sind drei universitäre Partner (Sapienza University of Rome, University of Klagenfurt and Royal Institute of Technology) und sieben Industriepartner: iExec Blockchain Tech SAS (France), The Ubiquitous Technologies Company (Greece), JOT Internet Media (Spain), MOG Technologies SA (Portugal), Ceramica Catalano SRL (Italy), Tellu IOT AS (Norway) and Robert Bosch GmbH (Germany).