Im Rahmen des Forschungsvorhabens „LabelledGreenData4All“ untersuchen wir, in welchen Anwendungsbereichen und mit welchen Daten die größten Potenziale für den Einsatz von Künstlicher Intelligenz (KI) im Umweltbereich bestehen und wie das Teilen von annotierten Umweltdaten aus der Ressortforschung des Bundes unterstützt werden kann. Aber in welchen Sektoren entfalten annotierte Daten die größte Wirkung? Welche Chancen und Risiken sowie aktuellen Hemmnisse gibt es in Bezug auf die Bereitstellung und Nutzung annotierter Datensets? Diese und weitere Fragen diskutierten wir in drei sektorspezifischen Workshops mit Fokus auf die Bereiche Landwirtschaft, Forstwirtschaft und Biodiversität.
Annotationen als limitierender Faktor in der Landwirtschaft
Unser Auftaktworkshop am 27.09.2024 befasste sich mit dem Potential annotierter Daten in der digitalen Landwirtschaft. Florian Männer vom Fraunhofer IGD in Rostock stellte dazu den Facettenreichtum an möglichen Anwendungen im Bereich Smart Farming vor - angefangen von der Erstellung von Bodenfeuchtekarten aus Satellitendaten, über die Identifikation von ökologischen Vorrangflächen, der KI-basierten Analyse von Drohnenbildern zur Biodiversitätsbestimmung, das Erkennen von Pilzerkrankungen und Insektenbefall an Erdbeerpflanzen im Folientunnel bis hin zu Analysen in den Bereichen Tierhaltung, Tierwohl und Tiergesundheit (zum Beispiel Lahmheitserkennung von Kühen, Schmerzerkennung bei Mäusen).
In der anschließenden Diskussion ging es vor allem um die Wiederverwendbarkeit annotierter Daten und um Strategien für das effektive Arbeiten mit wenigen Trainingsdaten. Vor allem die Nachnutzung annotierter Daten gestaltet sich oft sehr schwierig, da die Anwendungsfälle meist heterogen und spezifisch sind und es nur wenige Überschneidungen in Bezug auf Daten und / oder die Methodik gibt. Eine Ausnahme bildet der Pflanzenbau, in welchem häufig zweidimensionale Bilder verwendet werden und ein vergleichsweise homogenes Bild an Daten besteht. Im Gegensatz dazu sind die Ansätze in den Bereichen Tierwohl und Tiergesundheit sehr individuell.
Das größte Potential in der Landwirtschaft sieht Florian Männer in der Ökologie und Artenerkennung. Er räumt jedoch ein, dass dieses nur dann ausgeschöpft werden kann, wenn die entsprechenden Daten zur Verfügung stehen. In diesem Zusammenhang weist er darauf hin, dass es derzeit nur wenige Drohnendaten für die Artenerkennung gibt. Sein Team setzt daher auf die Generierung synthetischer Daten, um künstlich eine Vielfalt zu erzeugen, die in der Natur so nicht vorkommt. Florian Männer betonte auch, dass die zeitliche Mehrfachdatenerfassung für die Bereitstellung von Trainingsdaten in der Landwirtschaft ebenfalls sehr wertvoll ist.
Im Workshop haben wir gemeinsam festgestellt, dass nicht die Erfassung der Daten die größte Herausforderung darstellt, sondern vielmehr der zeitliche Aufwand und die intensive Arbeit, die für eine qualitativ hochwertige Annotation der Daten erforderlich sind.
Ergebnisse
- Intelligente Landwirtschaft profitiert enorm von Big Data und maschinellem Lernen (ML).
- ML hat zu erheblichen Fortschritten bei Effizienz, Nachhaltigkeit und Produktivität geführt.
- Die Landwirtschaft gehört zu den Vorreitern im Bereich des Einsatzes von KI und ist dabei den meisten anderen Sektoren voraus.
- Ökologie und Artenerkennung haben großes Potential, wobei die Wiederverwendbarkeit von annotierten Daten ein zentraler Aspekt ist.
- Hohe manuelle Aufwände in der Datenannotation (Annotation durch Expertinnen*Experten).
- Mangelnde Standardisierung und Einschränkungen aufgrund von Datenaggregation limitieren die Verfügbarkeit und Nutzbarkeit von Daten, so dass das Potential nicht voll ausgeschöpft werden kann.
Externer Link zur Aufzeichnung des Impulsvortrages von Florian Männer zu „Bioökonomie – Smart Farming | Projekte zur digitalen Landwirtschaft"
„Es gibt keine Kultur des Standardisierens und des Datenteilens in der Forstwirtschaft“
Im zweiten Workshop am 30.09.2024 lag unser Fokus auf dem Potential annotierter Daten für die Digitalisierung der Forstwirtschaft. In seinem Impulsvortrag zeigte Richard Georgi von der OGF GmbH die derzeitigen Grenzen der Standardisierung von Metadaten und Trainingsdaten auf und bekräftigte, dass auch in der Forstwirtschaft die Verfügbarkeit der Daten ein großes Problem darstellt. Er betonte das Potential, das in der Standardisierung und der gemeinsamen Nutzung von Trainingsdaten für die Forstwirtschaft liegt. Dabei wies er darauf hin, wie wichtig es ist, durch die Bündelung der Kräfte und die Etablierung gemeinsamer Standards für Daten und Metadaten ein vernetztes Ökosystem zu schaffen, das es ermöglicht, das volle Potenzial von KI in der Forstwirtschaft auszuschöpfen und nachhaltige Lösungen zu entwickeln.
In der anschließenden Diskussion standen die Themen Standardisierung, Datenverfügbarkeit und Transparenz im Mittelpunkt. Richard Georgi hob hervor, dass ein erhebliches Defizit zwischen den Möglichkeiten und der tatsächlichen Umsetzung in der Praxis besteht - und das vor allem aufgrund der mangelnden Verfügbarkeit von standardisierten und qualitätsgeprüften Daten. So werden Forstinventurdaten und Forschungsdaten in diesem Bereich aktuell nur eingeschränkt geteilt, was das effektive Training von Algorithmen für ML stark einschränkt.
Der Workshop endete mit der klaren Erkenntnis, dass die Einführung eines gemeinsamen Standards für die Datenbereitstellung im Forstsektor unerlässlich ist, um das volle Digitalisierungspotenzial auszuschöpfen. Datenräume bieten hier eine vielversprechende Möglichkeit.
Ergebnisse
- Es besteht eine große Diskrepanz zwischen dem, was technisch möglich ist und dem, was tatsächlich in der Praxis umgesetzt wird, so dass das Potenzial nicht ausgeschöpft wird.
- Datenschutz als zentraler Aspekt für das Datenteilen.
- Transparenz fördert Effizienz.
- Derzeit gibt es keinen gemeinsamen Standard für die Aufbereitung von forstlichen Daten.
- Datenräume als nachhaltige Lösung
Externer Link zur Aufzeichnung des Impulsvortrages von Richard Georgi zu „Trainingsdaten standardisiert erzeugen und gemeinsam nutzen: Der Weg zur KI-gestützten Baumartenerkennung in der Fortswirtschaft“
„KI ist nur so schlau wie die*der Expertin*Experte dahinter“
Der letzte Workshop am 02.10.2024 befasste sich mit dem Thema Biodiversität. Florian Männer vom Fraunhofer IGD stellte in seinem Impulsvortrag aktuelle Technologien und Anwendungen zur Biodiversitätsbestimmung im Grünland, in Mooren und Agrarlandschaften vor. Auf Basis von Luftbilddaten trainiert sein Team Machine Learning-Algorithmen zur Erkennung von Pflanzenarten, Pflanzenbiodiversität und Biotopvielfalt. Dies erfolgt mit annotierten Daten aus eigens dafür erhobenen Datensätzen mittels Drohnen oder Flugzeugbefliegungen, aber auch mit Bilddaten, die bereits annotiert sind oder nachträglich annotiert werden.
Ähnlich wie in der Forstwirtschaft erweist sich die Datenverfügbarkeit auch in der Landwirtschaft als sehr schwierig, da diese Daten direkt von den Landwirtinnen*Landwirten erhoben und bereitgestellt werden. Neben annotierten Daten wurden auch Kontextdaten, wie zum Beispiel Bewirtschaftungsdaten, als wichtige Parameter angesprochen. Bestehende Plattformen wie Flora Incognita sowie Crowdsourcing wurden als mögliche Optionen diskutiert, um zusätzliche Daten in die Analysen einfließen zu lassen.
Aktuell setzt das Fraunhofer IGD auf manuelle Annotationen durch Personen mit botanischem Fachwissen, wie Botaniker*innen oder Ökologinnen*Ökologen. Gleichwohl ist es durch den „Human-in-the-loop“-Ansatz perspektivisch möglich, den manuellen Annotationsaufwand sukzessive zu reduzieren und Algorithmen langfristig effektiver zu trainieren.
Ergebnisse
- ML-Methoden haben vielfältige Anwendungsmöglichkeiten in der Biodiversitätsforschung
- Crowdsourcing als Möglichkeit, die Datenverfügbarkeit zu verbessern
- Expertinnen und Experten sind für das Training von KI unverzichtbar
- „Human-in-the-Loop“ als zentraler Ansatz für die kollaborative und optimierte Datenannotation
Externer Link zur Aufzeichnung des Impulsvortrages von Florian Männer zu „Digitale Lösungen zur Biodiversitätserfassung“
Das Potenzial annotierter Daten im Umweltsektor
Die Erkenntnisse aus unserer Workshop-Reihe werden als Grundlage für die weiteren Potential- und Wirkungsanalysen innerhalb von LabelledGreenData4All genutzt. Ziel ist die Entwicklung strategischer und politischer Handlungsempfehlungen, in welchen Anwendungsbereichen und mit welchen Daten die größten Potentiale für den Einsatz von ML-Modellen im Umweltsektor bestehen.