Aufbau von Analyse-Tools für wiederkehrende agrarpolitische Fragestellungen anhand des Beispiels Dürremonitoring
An der Bundesanstalt für Agrarwirtschaft und Bergbauernfragen (BAB) wurde ein Datenwürfel (ODC) aufgesetzt, um die ständig anwachsende Menge an Rasterdaten effizient verwalten und analysieren zu können. Das Einzigartige am Open Data Cube der BAB soll die Erweiterung der ursprünglich für Satellitenbilder gedachten Technologie sein, sodass auch andere Daten indiziert und als Zeitreihen in diesen mehrdimensionalen Datenwürfel geladen werden können. Dadurch wird es möglich, eine Vielzahl an Raster- und rasterisierter Vektordaten (u.a. ALS-, INVEKOS-, Klimadaten) sowie Satellitenbilder gemeinsam in einem System zu verschneiden und auszuwerten. Zusätzlich zur rein räumlichen Analyse kann im mehrdimensionalen Datenwürfel auch die zeitliche Dimension in den Berechnungen und Auswertungen berücksichtigt werden, was die performanten Analysen von Zeitreihen ermöglicht.
Ziel ist es, den ODC als Analyse-Tool an der BAB zu etablieren, um wiederkehrende Datenauswertungen als Entscheidungsgrundlage agrarpolitischer Fragestellungen in Zukunft wesentlich zielgerichteter und vor allem performanter durchführen zu können. Der ODC soll als vernetzte Datenstelle dienen und über Cloud Object Storage Schnittstellen (z.B. S3) für Dateneinbindungen offen fungieren können. Damit soll ein Teil der bestehenden Geodateninfrastruktur ersetzt werden. Diese Lösung minimiert Fehlerquellen, stellt allen Nutzer:innen die aktuellsten Daten unmittelbar zur Verfügung und wird dezentral verwaltet. Ziel ist es, dass Nutzer:innen die notwendigen Analysen selbständig via Internetbrowser auf der dahinterliegenden Infrastruktur durchführen können. Dabei sollen bestehende Analysefunktionen erweitert und wiederkehrende Auswertungen diverser Fragestellungen aktualisiert werden können. Als Beispielanwendung wird ein Monitoring der klimatischen Entwicklung Österreichs speziell für landwirtschaftliche Flächen entwickelt. Der ODC soll im weiteren Verlauf von einer Pilotumgebung in eine skalierbare, ausfallsichere Produktivumgebung überführt werden.
Die Jupyterhub-Plattform rund um den ODC wurde von einer Testumgebung in ein Kubernetes-Cluster (System zur Orchestrierung von Container-Anwendungen) migriert, dass eine hohe Ausfallsicherheit und eine rasche Skalierbarkeit gewährleistet. 2023 wurde die Infrastruktur weiter optimiert und zu einem Dask-Cluster ausgebaut. Dies ermöglicht es, Prozesse zu parallelisieren und die Hardware-Ressourcen des Kubernetes-Clusters bestmöglich nutzen zu können, um die Performanz zu steigern. Zusätzlich wurde der Login auf der Plattform durch Single sign-on (SSO) ersetzt.
Als methodischer Anwendungsfall wurden für jede Katastralgemeinde Österreichs definierte Klimaparameter (z.B. die klimatische Wasserbilanz, Hitzetage und Trockenperioden von 10 oder mehr Tagen) für die Klimanormalperiode 1961-1990 als auch 1991-2020 berechnet. Ziel war es, Klimaveränderungen aufzuzeigen und eine Basis zu schaffen, die es erlaubt, diese oder ähnliche wiederkehrende Fragestellungen bei Bedarf mit aktuellen Daten kurzfristig beantworten zu können.
Der ODC wurde auf der GI-Salzburg 2023 präsentiert und fachlich diskutiert.
2024 wurde das Kubernetes-Cluster, in das die Plattform eingebettet ist, stark ausgebaut. Es besteht nun aus 13 Servern, wobei 3 davon als Master-Nodes und 10 als Worker-Nodes fungieren. Die Verfügbarkeit und Ausfallsicherheit des Clusters wird durch die drei Master-Nodes erheblich gesteigert. Die zehn Worker-Knoten ermöglichen eine hohe Skalierbarkeit und eine effiziente Verteilung der Arbeitslasten, was die Performance und Reaktionsfähigkeit der Anwendungen verbessert.
Im gegenständigen Projekt wurde erfolgreich eine Analyse-Plattform aufgebaut und weiterentwickelt mit Implementierung der Technologien ODC und STAC. Die Plattform ist benutzerfreundlich, flexibel und aufgrund der Einbettung in ein Kubernetes-Cluster skalierbar und ausfallsicher. Aufgrund der einfachen Verknüpfung mit weiteren Tools wie Apache Airflow und Apache Superset konnte im Rahmen des Projekts ein Workflow entwickelt werden, um den gesamten Datenworkflow – von Datenintegration, Datenanalyse bis zur Datenvisualisierung effizient zu gestalten.
Das Ergebnis ist eine robuste Infrastruktur, die es ermöglicht, große Datenmengen aus unterschiedlichen Datenquellen miteinander auszuwerten. Im Anwendungsbeispiel wurden klimatische Daten und Dürreindizes berechnet und visualisiert und ein flexibles Monitoringtool geschaffen. Die Infrastruktur wurde in die Produktivumgebung migriert und steht Nutzer:innen intern für Auswertungen zur Verfügung. Damit wurde ein wichtiger Meilenstein für zukünftige datenintensive Auswertungen (Big Data Processing) an der BAB gesetzt. Insgesamt hat das Projekt gezeigt, dass die kontinuierliche Weiterentwicklung und Integration fortschrittlicher Technologien entscheidend für eine leistungsfähige Analyse- und Visualisierungsplattform sind.
Meteorologische Dürreindizes können als Indikatoren für Klimabedingungen und Wasserstress verwendet werden. Ein langfristiges Monitoring kann Entwicklungstrends aufzeigen, als Frühwarnsystem dienen und wertvolle Informationen liefern, um die Anpassungsfähigkeit der Landwirtschaft an Dürrebedingungen langfristig zu stärken. Meteorologische Dürre kann allerdings nicht mit landwirtschaftlicher Dürre gleichgesetzt werden – man kann also basierend auf meteorologischen Indikatoren nicht direkt auf trockenheitsbedingte Ernteeinbußen schließen, da die Vulnerabilität gegenüber Trockenheit unterschiedlich ist (z.B. abhängig von Kulturart, Sorte, Entwicklungsphase) und diese zudem von weiteren Faktoren abhängig sind (z.B. Wasserspeicher(kapazität) des Bodens, Managementmaßnahmen, regionalen Gegebenheiten) (Bachmair et al., 2018). Dies sollte berücksichtigt werden, wenn in Zukunft Fördermaßnahmen für Ertragseinbußen aufgrund von Dürre geplant werden.
Für detaillierte Aussagen auf Betriebs- oder Schlagebene sind die vorliegenden interpolierten Niederschlagsdaten nicht ausreichend präzise, da Niederschläge häufig sehr kleinräumig und in unterschiedlicher Intensität auftreten. Es kann daher damit nur ein grober Überblick geschaffen und großräumige Trends sichtbar gemacht werden.
Zu meteorologischen Indikatoren und Indizes kann der tatsächliche Zustand der Vegetation anhand von Satellitenbildern eine sinnvolle Ergänzung sein. Satellitendaten liefern wertvolle Informationen zu Bodenfeuchte, Pflanzenwachstum und Pflanzenzustand (Trnka et al., 2020). Im Vorprojekt wurden Tests mit einzelnen Sentinel-2-Szenen durchgeführt. Eine österreichweite großflächige Datenaufbereitung und Analyse hätte den zeitlichen und inhaltlichen Rahmen des gegenständlichen Projekts überstiegen. Eine mögliche sinnvolle Weiterentwicklung könnte daher die systematische Nutzung und Auswertung von Satellitendaten auf nationaler Ebene sein.
Zeitplan
Projektbeginn: 01/2021
Projektende: 12/2024