Aufbau von Analyse-Tools für wiederkehrende agrarpolitische Fragestellungen anhand des Beispiels Dürremonitoring
An der Bundesanstalt für Agrarwirtschaft und Bergbauernfragen (BAB) wurde ein Datenwürfel (ODC) aufgesetzt, um die ständig anwachsende Menge an Rasterdaten effizient verwalten und analysieren zu können. Das Einzigartige am Open Data Cube der BAB soll die Erweiterung der ursprünglich für Satellitenbilder gedachten Technologie sein, sodass auch andere Daten indiziert und als Zeitreihen in diesen mehrdimensionalen Datenwürfel geladen werden können. Dadurch wird es möglich, eine Vielzahl an Raster- und rasterisierter Vektordaten (u.a. ALS-, INVEKOS-, Klimadaten) sowie Satellitenbilder gemeinsam in einem System zu verschneiden und auszuwerten. Zusätzlich zur rein räumlichen Analyse kann im mehrdimensionalen Datenwürfel auch die zeitliche Dimension in den Berechnungen und Auswertungen berücksichtigt werden, was die performanten Analysen von Zeitreihen ermöglicht.
Zielsetzung
Ziel ist es, den ODC als Analyse-Tool an der BAB zu etablieren, um wiederkehrende Datenauswertungen als Entscheidungsgrundlage agrarpolitischer Fragestellungen in Zukunft wesentlich zielgerichteter und vor allem performanter durchführen zu können. Der ODC soll als vernetzte Datenstelle dienen und über Cloud Object Storage Schnittstellen (z.B. S3) für Dateneinbindungen offen fungieren können. Damit soll ein Teil der bestehenden Geodateninfrastruktur ersetzt werden. Diese Lösung minimiert Fehlerquellen, stellt allen Nutzer:innen die aktuellsten Daten unmittelbar zur Verfügung und wird dezentral verwaltet. Ziel ist es, dass Nutzer:innen die notwendigen Analysen selbständig via Internetbrowser auf der dahinterliegenden Infrastruktur durchführen können. Dabei sollen bestehende Analysefunktionen erweitert und wiederkehrende Auswertungen diverser Fragestellungen aktualisiert werden können. Als Beispielanwendung wird ein Monitoring der klimatischen Entwicklung Österreichs speziell für landwirtschaftliche Flächen entwickelt. Der ODC soll im weiteren Verlauf von einer Pilotumgebung in eine skalierbare, ausfallsichere Produktivumgebung überführt werden.
Stand des Projekts
Die Jupyterhub-Plattform rund um den ODC wurde von einer Testumgebung in ein Kubernetes-Cluster (System zur Orchestrierung von Container-Anwendungen) migriert, dass eine hohe Ausfallsicherheit und eine rasche Skalierbarkeit gewährleistet. 2023 wurde die Infrastruktur weiter optimiert und zu einem Dask-Cluster ausgebaut. Dies ermöglicht es, Prozesse zu parallelisieren und die Hardware-Ressourcen des Kubernetes-Clusters bestmöglich nutzen zu können, um die Performanz zu steigern. Zusätzlich wurde der Login auf der Plattform durch Single sign-on (SSO) ersetzt.
Als methodischer Anwendungsfall wurden für jede Katastralgemeinde Österreichs definierte Klimaparameter (z.B. die klimatische Wasserbilanz, Hitzetage und Trockenperioden von 10 oder mehr Tagen) für die Klimanormalperiode 1961-1990 als auch 1991-2020 berechnet. Ziel war es, Klimaveränderungen aufzuzeigen und eine Basis zu schaffen, die es erlaubt, diese oder ähnliche wiederkehrende Fragestellungen bei Bedarf mit aktuellen Daten kurzfristig beantworten zu können.
Der ODC wurde auf der GI-Salzburg 2023 präsentiert und fachlich diskutiert.
Geplante Arbeiten 2024
Aufgrund der positiven Erfahrungen, die im Verlauf des ODC-Projekts gesammelt werden konnten und die Möglichkeit, die wachsenden Mengen an Rasterdaten (Satelliten-, ALS-, Klimadaten uvm.) strukturiert abspeichern und für viele Fragestellungen kombiniert auswerten zu können, wird der ODC und die Jupyterhub-Umgebung 2024 weiterentwickelt. Die Ergebnisse bereits durchgeführter Analysen, wie etwa die Berechnung der Klimaparameter für Acker- und Grünlandflächen, sollen nach Akquise zeitlich aktueller Daten aktualisiert werden. Der langfristige Trend geht inzwischen in Richtung dezentraler Auswertung, bei der die großen Datenmengen nicht mehr selbst gespeichert werden müssen. Aus diesem Grund wird die Infrastruktur weiterentwickelt und im Jahr 2024 Daten vermehrt mittels STAC (Spatio Temporal Asset Catalogs) eingebunden. Dabei handelt es sich um eine Spezifikation, die einen interoperablen Zugriff auf eine Vielzahl an weltweiten Daten ermöglicht, ohne diese Daten selbst herunterladen zu müssen.
Auf aktuelle Anfrage des BML soll das Monitoring der klimatischen Entwicklung ausgebaut werden. Mit Fokus auf landwirtschaftliche Flächen sollen aktuelle klimatische Indizes (basierend auf Klimadaten) sowie Vegetationsindizes (basierend auf Satellitendaten) berechnet und mit langjährigen Mittelwerten verglichen werden.
Zeitplan
Projektbeginn: 01/2021
Projektende: 12/2024