In der im Wasserrechtsgesetz geforderten Zusammenarbeit zwischen Bund und Länder wird ein Messnetz zur Bestimmung des Wasserhaushaltes in Österreich betrieben. Diese Daten werden von den Bundesländern gesammelt und in das Hydrographisches Daten Management System (HyDaMS) übermittelt.
Das HyDaMS basiert bisher auf einer proprietären Software, mit welcher in einem sehr speziellen Format über 300.000 Zeitreihen mit unterschiedlichen Parametern und Zeitbezügen vorgehalten werden.
Im Rahmen der INSPIRE-Richtlinie (2007; Umsetzung AT: Geodateninfrastrukturgesetz 2010) sind Geodaten zu benennen und bekannt zu machen (Metadaten) und harmonisiert (definierte gemeinsame Datenstruktur) bereitzustellen (Datenservices).
Im Jahr 2019 erfolgte die Neufassung/Novellierung der alten PSI-RL (PublicSectorInformation) zur OpenData-RL, die 2022 als Informationsweiterverwendungsgesetz 2022 im Bund in Kraft trat. Sie enthält Mindestregeln für die Weiterverwendung öffentlicher Daten und führt das Open-By-Default-Prinzip ein: öffentliche Daten sollen also prinzipiell offen (OpenData) sein, solange nichts definitiv dagegenspricht. Darüber hinaus sind dynamische Daten (Sensoren/Zeitreihen) über Services/API bereitzustellen.
Eine Verschärfung trat im Februar 2023 durch die Verlautbarung der HVD-VO (HighValueDatasets-Verordnung) ein. Dort genannte Datensätze sind verpflichtend kostenlos (OpenData) per Service/API bereitzustellen.
Zielsetzung
Moderne Big-Data Auswertungsmöglichkeiten und Dashboards können wegen der speziellen Struktur des bisher eingesetzten Datenformates nicht auf die Zeitreihendaten innerhalb des HyDaMS zugreifen.
Um Big-Data Analysen oder Modellberechnungen zu ermöglichen, sollen die Zeitreihen automatisch über eine zu entwickelnde Schnittstelle periodisch und gemonitort in ein Open-Source (OS) Datenbanksystem gespiegelt werden. Dies betrifft (i) die geprüften Daten der Hydrographie, die jährlich mit Abschluss eines Jahrbuches eingespielt werden sollen sowie (ii) die aktuellen fernübertragenen (und ungeprüften) Daten aus den Ländern, die kontinuierlich eingespielt werden sollen.
Ein modernes Datenbanksystem ist auch Voraussetzung für zahlreiche geplante Innovationen seitens der Abt. I/3 Wasserhaushalt, so zum Beispiel ein nationales Wasserhaushaltsmodell. Ebenso ist die Datenbereitstellung über das WebGIS-Portal eHYD Stand heute nicht mehr zeitgemäß. Zuerst müssen aus dem HyDaMS die Zeitreihen und Stammdaten als Textdateien exportiert und anschließend manuell in das eHYD integriert werden. Aufgrund der großen Datenmengen gibt es Limitierungen, so werden viele Zeitreihen nur in aggregierter zeitlicher Auflösung angeboten, um die Datenmenge zu reduzieren. Bei Vorhandensein einer Datenbank mit moderner Schnittstelle könnte das eHYD direkt mit der neuen Datenbank verknüpft werden, sodass ein Nutzer auf den gesamten Datenstand der Hydrographie zugreifen kann.
Das HyDaMS besitzt keine maschinenlesbare Schnittstelle (API) und kann laut Auskunft des Softwareunternehmens auch nicht damit ausgestattet werden. Das vorliegende Datenpipeline- bzw. Datenbankprojekt zwischen dem BML und der BAB ist also auch durch gesetzliche Vorgaben bedingt (siehe „Ausgangssituation“).
Hauptziele
- Stabiler Export von Daten aus HyDaMS (Stammdaten und Zeitreihen)
- Auswahl eines geeigneten Open-Source-Datenbank-Systems
- Aufbau von Daten-Pipelines für den Import von Daten aus HyDaMS in eine ausgewählte Open-Source Datenbank
- Aufbau und Betrieb eines Testsystems
- Bereitstellung der Schnittstellen zu Dashboard- und state-of-the-art Auswertungs-Tools
Stand des Projekts
- BML Abt. I/3: vorhandene Daten (Stammdaten und Zeitreihen) wurden gesichtet und bewertet
- BAB: Prüfung der Eignung und Vergleich verschiedener OS-Datenbanken bzgl. der effizienten Verwaltung eines Sensorzeitreihen-Big-Data-Testdatensatzes (ca. 6 Mrd. Dateneinträge) werden derzeit abgeschlossen
Geplanter Ablauf, Durchführung
- BAB: Implementierung eines geeigneten Datenbankschemas
- BAB / BML Abt. I/2: Entwicklung von Skripten, für die folgenden Anwendungen:
- Verknüpfung der Zeitreihen aus Hydams/Callisto mit den Stammdaten
- Exportieren in Arrays mit Format-Konvertierungen
- Übertragung der Daten in OS-Datenbanken
- BAB: Sicherstellung der Funktionen: Parallelisierung, Protokollierung und Monitoring
- BAB: Zeitgesteuerte Ausführung:
- OS-basierte Workflow-Management
- Workflows erstellen, verwalten und überwachen
- mit gerichteten azyklischen Graphen Workflows abbilden
- BAB: Bereitstellung und Hosting eines Test-DBMS
- BAB: Export von Zeitreihendaten aus HyDaMs und Callisto
- BAB: Import von Zeitreihendaten in das gewählte Testsystem
- BAB / BML Abt. I/3: Datenvalidierung
Zeitplan
Projektbeginn: 01/2024
Projektende: 12/2025