Die Teilnehmer des Wettbewerbs stehen vor der Luftmessstation in der Hügelstraße in Darmstadt
Siegreich mit Stickoxid

Griffige Prognosen für die Stickoxidbelastung in Darmstadt: Darum ging es bei der ersten h_da-internen Machine Learning Challenge des Fachbereichs Informatik. Auf Basis von Umweltmessdaten der Digitalstadt und mit Hilfe von Künstlicher Intelligenz trainierten zehn Teams aus verschiedenen Fächern Vorhersagemodelle. Die besten Ergebnisse wurden mit einem Preisgeld prämiert und stießen auf großes Interesse bei den Kooperationspartnern aus der Praxis. Nicht nur deshalb soll es weitere Competitions geben.

Von Alexandra Welsch, 16.12.2021

Stickstoffwerte steigen in grauen Pixelwolken auf, schmiegen sich wie rote Stalakmiten an hochgeschossene Verkehrsspitzen, ziehen sich als bunte Hecken von links nach rechts: Vielfältig sehen die grafischen Darstellungen aus, die Studierende der Hochschule Darmstadt bei einem hochschulinternen Wettbewerb aus Messdaten der Wissenschaftsstadt Darmstadt zu Stickoxidbelastungen in der Stadtluft modelliert haben. Ziel dieser ersten h_da-exklusiven, fächerübergreifenden Machine Learning Challenge des Fachbereichs Informatik: Die Studierenden sollten maschinelle Lernverfahren anwenden, um anhand reeller Messdaten des DAnalytics-Teams der Digitalstadt Darmstadt ein Vorhersagemodell für die Schadstoffbelastung zu bauen. Die Stadt lieferte hierfür die Daten zu Verkehrsflüssen, Wetter und Luftqualität.

„Es gibt häufig das Problem, dass man als Student nur schwierig an Datensätze rankommt“, erläutert Markus Döhring, Studiengangskoordinator Data Science am Fachbereich zum Ansatz der Competition. Da er schon länger gute Kontakte und Kooperationen mit Verkehrsexperten bei der Darmstädter Stadtverwaltung pflegt und so auch zu deren Datenspezialisten, tat sich dort eine geeignete Quelle auf. Denn im Rahmen eines Projekts der Digitalstadt messen und sammeln 16 Umweltsensoren seit rund zwei Jahren massenhaft Echtzeitdaten. Und die regionale Ausrichtung sieht der Informatik-Professor als Stärke im Vergleich zu weltweiten Challenges, wie sie etwa über die Plattform Kaggle laufen. „Das ist eine ziemlich hohe Einstiegshürde“, sagt er. Das gelte vor allem für Unternehmen, die Challenges bereitstellen möchten. „Da haben wir gesagt, wir machen dasselbe, nur hochschulintern.“ Also hat man eine eigene Evaluationsplattform geschaffen, auf der h_da-Studierende exklusiv in einem geschützten Raum mit Datensätzen arbeiten und sich ausprobieren können.

Schmutzige Daten

Für diese erste Challenge standen laut Döhring Daten von Verkehrs-, Wetter- und Stickoxidwerten der städtischen Sensoren aus ungefähr zwei Jahren bereit. Doch dabei wurden bewusst die Stickoxidmesswerte für einzelne Nachmittage herausgenommen. Für diese Lücke sollte nämlich auf Basis der vorhandenen Datensätze eine Prognose für die Stickoxidbelastung berechnet werden. „Laden Sie sich die Challengedaten herunter und bearbeiten Sie diese mit Tools Ihrer Wahl“, stand in der Beschreibung der Aufgabe, der sich letztlich zehn kleinere Teams und Teilnehmende aus den Fachbereichen Informatik, Mathematik, Media und Elektrotechnik angenommen haben. Für sie galt es, auf Basis der Datensätze mehrere strukturierende Variablen für bestimmte Datenaspekte zu entwickeln und damit algorithmisch arbeitende Softwaremodelle zu trainieren. Gewonnen haben diejenigen, die mit ihrer Prognose der nachmittäglichen Belastung mit Stockoxid, also NO2, am nächsten an der tatsächlich gemessenen lagen.

Ganz vorne dabei ist Informatik-Student Leopold Groznova, der nicht nur den zweiten Platz gewonnen hat, sondern auch einen Sonderpreis für die beste explorative Datenanalyse von besonders guter Lesbarkeit und Aussagekraft. „NO2-Spitzen fallen mit Verkehrsspitzen zusammen“, fasste er ein zentrales Ergebnis zusammen. Das mag zwar grundsätzlich keine mega-neue Erkenntnis sein, aber der Junginformatiker machte das anhand von gezielten Datenanwendungen und Grafiken wissenschaftlich gestützt mithilfe Künstlicher Intelligenz konkret greifbar. Dabei betrachtete er zwei Sensoren in der Hügelstraße und der Rheinstraße getrennt und bilanzierte letztlich in seinem Fazit „massive Unterschiede zwischen den Werten dieser beiden Sensoren“. Besonders punkten konnte er dabei auch mit einer Analyse, die einen relevanten Zusammenhang sichtbar macht zwischen unterschiedlichen Windbewegungen und Stickoxidbelastungen an den einzelnen Standorten.

Mit Extra-Kniff zum ersten Platz

Teils ähnliche Erkenntnisse generierte auch sein Kommilitone Alex Becker, der es bei der Challenge auf den ersten Platz geschafft hat. Dabei wandte er einen Extra-Kniff an, mit dem er besonders punkten konnte: Während Groznova für das Datentraining ein Modell gewählt hat, nutzte Becker vier verschiedene Modelle. „Ich habe alle einzeln trainiert und dann kombiniert“, erzählt der 26 Jahre alte Darmstädter. Dadurch würden die Ergebnisse nochmal einen Hauch zutreffender. Als „Gewinnerstrategie“ lobte Professor Döhring das dann auch bei der Präsentation. Gab aber auch zu bedenken, dass diese Technik des Ensemblings zwar gut sei, um eine Challenge zu gewinnen. „Aber in der Realität würde man sich sehr genau überlegen, ob man das wählt.“ Denn bei solch komplexen Modellen werde immer schwerer greifbar, wie eine Vorhersage genau zustande komme. „Ich sehe da eine große Asymmetrie zu dem, was in der Praxis gebraucht würde“, schloss Döhring. Gleichfalls sei der Ansatz interessant, um die Grenzen des Machbaren auszuloten.

„Ich finde das spannend, dass Sie diesen Ansatz gewählt haben“, kommentierte als externer Praktiker in der Präsentationsrunde Olaf Arras vom DAnalytics-Team der Digitalstadt Darmstadt das Gehörte und Gesehene. Lob gab es auch für manche griffige Darstellung, etwa den „Graf mit der Windrose“. Zwar wüssten sie, dass die Stickoxidbelastung sehr standortabhängig sei und stark mit der umliegenden Bebauung zusammenhänge. „Aber den Zusammenhang zwischen der Stickoxidbelastung und dem Windaufkommen habe ich so anschaulich noch nie gesehen“, befand Arras. „Worum es uns geht, ist grundsätzliche Korrelationen zu erkennen.“ Die seien bei Schadstoffwerten natürlich vielfältig. „Aber da stehen wir noch am Anfang.“ Und in den nächsten Monaten werde das Darmstädter Stadtgebiet mit weiteren vierzig Umweltsensoren ausgestattet, plus fünf eigene Wetterstationen und Kohlendioxidsensoren.

Da kommt also noch einiges an Daten dazu, die künftig betrachtet und ausgewertet wollen. Und wie Markus Döhring bekräftigt, soll das auch nicht ihre letzte Challenge gewesen sein. Unabhängig von der Digitalstadt hätten auch andere ihrer dualen Partner im Data-Science-Bereich Interesse signalisiert, Datensätze bereitzustellen. Etwa regionale Unternehmen, die das für individualisierte Kundenwerbung einsetzen könnten oder für eine zielgerichtete Wartung ihres Maschinenparks.

Informatik-Student Alex Becker wäre nicht abgeneigt, wieder mitzumachen. „Die Erfahrung, bei solchen Aufgaben mit realen Daten etwas zu machen, das bringt schon viel“, sagt er. „Vor allem im Hinblick auf die spätere berufliche Richtung.“ Und der Einstieg in eine hda_interne Competition sei einfacher als bei einer der großen weltweiten Challenges, wo er auch schon mal mitgemacht habe. Allerdings hat er da nicht gewonnen. Und konnte sich auch nicht wie hier über das Sieger-Preisgeld von 200 Euro freuen. Dafür hat er nach eigenen Aussagen aber auch rund 50 Arbeitsstunden investiert.

Kontakt

Nico Damm
Hochschulkommunikation
Tel.: +49.6151.16-37783
E-Mail: nico.damm@h-da.de