Datenannotation als Grundlage für KI im Umweltsektor

**Annotierte Datensätze als Innovationskraft im Umweltsektor**
Quelle: M / Adobe Stock

Die sektorübergreifende Verfügbarkeit qualitativ hochwertiger, harmonisierter annotierter Umweltdaten für Maschinelles Lernen (ML) ist bisher stark eingeschränkt. Im Ressortforschungsprojekt "LabelledGreenData4All" werden Bedarf und Potenziale annotierter Datensätze ermittelt. Außerdem stehen die Entwicklung eines innovativen Vorgehensmodells für Datenannotationen und grüne Datenräume im Fokus.

29.05.2024

Die Potenziale annotierter Umweltdatensätze

Die Herausforderungen bei der Verzahnung von Digitalisierung, Umweltschutz und ⁠Nachhaltigkeit⁠ sind enorm. Methoden der künstlichen Intelligenz können die Entscheidungsfindung und Forschung in diesen Bereichen maßgebend vorantreiben und verändern. Annotierte Daten nehmen dabei eine Schlüsselrolle ein. Annotierte Daten, das sind Daten, die mit einem Tag oder Label versehen wurden, damit ML-Modelle diese verstehen können. Sie bilden die Grundlage für eine gute Modellbildung und dienen als treibende Kraft für die Weiterentwicklung KI-gestützter Umweltforschung.

Die Verfügbarkeit geeigneter Trainingsdaten ist entscheidend für die Ergebnisqualität von ML-Modellen. Der Aufwand, der für die Datensammlung und -aufarbeitung notwendig ist, ist in der Regel sehr hoch und wird oft für einzelne Modellentwicklungen wiederholt. Insbesondere die Identifizierung von Anwendungsbereichen mit großem Bedarf, das Füllen von Datenlücken und die Entwicklung von effizienten Annotationsstrategien sind daher essenziell für den erfolgreichen und wirksamen Einsatz von KI im Umweltbereich.

Ziel des Projekts ist es, für das Umweltressort strategische Empfehlungen zu erarbeiten, in welchen Anwendungsbereichen und mit welchen Daten die größten Potenziale für den Einsatz von ML-Modellen bestehen. Das Projekt wird auch die Frage behandeln, wie das Teilen von sogenannten „gelabelten“ beziehungsweise annotierten Umweltdaten aus der Ressortforschung des Bundes unterstützt werden kann.

„Das Forschungsvorhaben soll uns helfen, wissenschaftsbasiert politische Maßnahmen vorzuschlagen, welche den Austausch und die gemeinsame Nutzung von Umweltdaten und umweltrelevanten Daten in kollaborativen Datenräumen über Sektoren hinweg weiter fördern und verbessern können. Dabei soll das Projekt nicht nur die Zurverfügungstellung von annotierten Daten für Umwelt- und Nachhaltigkeitsanwendungen unterstützen, sondern auch der Annotationsprozess an sich soll möglichst nachhaltig gestaltet werden“, so Cathleen Mitzschke, Referat Z 2.3 „Digitale Transformation und Beratungsstelle Green IT“ im ⁠UBA⁠.

Wir erheben und bewerten aktuell in einer Befragung den Bedarf für eine ressort- und sektorübergreifende Bereitstellung annotierter Sets von Umweltdaten und umweltrelevanten Daten für Verfahren des maschinellen Lernens, welche zum Zweck des Umwelt-, Natur- und ⁠Klimaschutz⁠ eingesetzt oder entwickelt werden sollen. Wir wollen daraus Empfehlungen und Maßnahmen ableiten, um den Zugang zu diesen Daten und deren Nutzbarkeit zu verbessern und zu fördern.
Wenn Sie bereits an einem Projekt beteiligt waren, in dem Daten für die Entwicklung eines KI-Modells im weitesten Sinne erhoben und verarbeitet wurden, beteiligen Sie sich gern an unserer Befragung (durchgeführt durch wetransform). Zur Umfrage und zu weiteren Informationen gelangen Sie über folgenden externen Link:
Deutsche Fassung: Umfrage "LabelledGreenData4All"
Englische Fassung: Survey „LabelledGreenData4All“

Trainingsdaten als Schlüssel - Entwicklung eines innovativen Vorgehensmodells zur effizienten und skalierbaren Datenannotation für den Umweltsektor

Im Rahmen des Projekts werden vorhandene Annotationsverfahren evaluiert und analysiert. Besonderes Augenmerk liegt auf der Skalierbarkeit und Ergebnisqualität der Verfahren. Auf dieser Basis wird ein Vorgehensmodell für die Datenannotation unter Berücksichtigung verschiedener Datenarten und Anwendungsfälle entwickelt.

„Wir wollen ein innovatives Vorgehensmodell entwickeln, das effiziente und skalierbare Lösungen für Datenannotation ermöglicht. So können KI-Lösungen in Zukunft gewinnbringend und nachhaltig für den Umweltsektor zum Einsatz kommen“ erläutert Dr. Eva Klien vom Fraunhofer IGD.

Datenräume als digitales Ökosystem

Ein zentraler Aspekt von LabelledGreenData4All ist es, die Verfügbarkeit von annotierten Umweltdaten und umweltrelevanten Daten zu verbessern und diese in grünen Datenräumen sektorübergreifend zu teilen.

„Datenräume bieten die Möglichkeit, schützenswerte Daten für eine Community nutzbar zu machen, ohne die Kontrolle über diese Daten abgeben zu müssen. Das ist zentral, denn heute sind nur maximal 40 Prozent der für einen bestimmten Anwendungsfall im Umweltbereich notwendigen Daten Offene Daten”, erklärt Thorsten Reitz, Gründer von wetransform.

Durch die Bereitstellung solcher Daten können Behörden, Forschende und Unternehmen sich auf Innovationen konzentrieren, anstatt immer wieder einen Großteil ihrer Entwicklungszeit für die Datenaufbereitung und -annotation aufwenden zu müssen.

Die Forschungsergebnisse sollen dazu beitragen, Verfahren des maschinellen Lernens sowohl für Belange des Umweltressorts als auch für Akteure aus Forschung, Wirtschaft / Industrie sowie der Zivilgesellschaft künftig besser nutzbar zu machen. So sollen die besonderen Potenziale von KI im Umweltbereich entfaltet und Lücken zwischen technisch notwendigen Grundlagen und Anwendungsbereichen für den Umwelt- und Ressourcenschutz geschlossen werden. Dabei ist es wichtig zu verstehen, wie KI den Fortschritt beim ⁠Klima⁠- und Umweltschutz beschleunigen oder behindern kann und wie verschiedene Interessengruppen diese Entwicklungen steuern können. Das Vorhaben verfolgt deshalb einen integrativen Forschungsansatz und legt besonderen Wert darauf, unterschiedliche Communities miteinander zu vernetzen und wissenschaftliche und anwendungsorientierte Transferleistungen zu erbringen.

Logo des Forschungsvorhabens „LabelledGreenData4All“
Quelle: wetransform GmbH

Artikel:

Drucken

Schlagworte:

Künstliche Intelligenz digitale Transformation Umweltdaten Innovationspotenzial Open Data Modellierung Umweltforschung

Datenannotation als Grundlage für KI im Umweltsektor | Umweltbundesamt