KI-Montage-Assistent
Wenn ein Bauteil im industriellen Montageprozess fehlerhaft zusammengesetzt wird, kann das später sehr teuer werden. Fabian Sturm, der an der h_da Wirtschaftsingenieurwesen mit Fachrichtung Elektro-& Informationstechnik studiert und dann am Promotionszentrum für Angewandte Informatik promoviert hat, will hier Abhilfe schaffen. Im Rahmen seiner Dissertation entwickelte er ein intelligentes Assistenzsystem: Es lernt komplexe Handgriffe vorab durch YouTube-Videos und steht Montierenden als „mitdenkender Mentor“ zur Seite.
impact, 26.3.2026
Dieser Artikel basiert auf einem Text, den Dr. Fabian Sturm über seine Dissertation am Promotionszentrum Angewandte Informatik (PZAI) verfasst und für den KlarText-Preis für Wissenschaftskommunikation 2026 eingereicht hat. Fabian Sturm promovierte an der h_da im Rahmen des Bosch-Doktorandenprogramms, verbrachte dabei unter anderem ein Jahr bei Bosch Rexroth in den USA und treibt seine Forschung inzwischen als Postdoc an der TH Nürnberg voran.
Ein winziger Kratzer im Gussgehäuse, kaum sichtbar mit bloßem Auge und entstanden beim Einführen eines Kolbens. Ein Dichtungsring, nur einen Millimeter zu klein und deswegen schief eingesetzt. In der hektischen Fabrikhalle fällt das niemandem auf und oft werden diese kleinen Fehler auch bei der Endprüfung übersehen. Doch Jahre später sorgt genau dieser minimale Fehler für einen fatalen Ausfall. Der Grund? Ein kurzer Moment der Unachtsamkeit während der Montage. Vielleicht war es die Müdigkeit am Ende der Spätschicht, vielleicht eine kurze Ablenkung durch die Kollegen.
„Man könnte meinen, in der Industrie sei heute alles vollautomatisiert“, erklärt KI-Experte Fabian Sturm. „Doch selbst Pioniere der Branche mussten hier Lehrgeld zahlen.“ Der CEO von Tesla räumte 2018 nach langanhaltenden Produktionsschwierigkeiten beim Tesla Model 3 ein: „Ja, die übermäßige Automatisierung bei Tesla war ein Fehler. Um genau zu sein, mein Fehler. Menschen werden unterschätzt.“ Tatsächlich bleibt der Mensch gerade bei hoher Produktvarianz aufgrund seiner Anpassungsfähigkeit unersetzlich. Wo Roboter an flexiblen Bauteilen wie Dichtungsringen scheitern, arbeitet der Mensch mit ungeschlagener Präzision – ist jedoch anfällig für Flüchtigkeitsfehler zum Beispiel durch Konzentrationsmangel.
Alltägliche Handgriffe als Muster für Montageprozesse
Um dies zu vermeiden, kann ein digitaler Mentor die Mitarbeitenden beobachten und ihnen im Fall eines Fehlers einen Hinweis geben oder sie bereits während der Anlernphase unterstützen. Dazu müssen zum einen die zu montierenden Bauteile erkannt werden, zum anderen muss überprüft werden, ob sie im richtigen Arbeitsschritt eingebaut werden – auf die richtige Art und Weise.
Objektdetektoren, die Bauteile erkennen können, gibt es bereits. Der oben beschriebene winzige Kratzer im Gussgehäuse kann allerdings nur dann verhindert werden, wenn der Kolben statt mit großem Druck mit einer sanften Drehbewegung eingesetzt wird. „Um eine KI darauf zu trainieren, solche feinen Unterschiede rechtzeitig zu erkennen, muss man sich menschliche Hand-Bewegungen in industriellen Arbeitsumgebungen genauer anschauen“, beschreibt Sturm seinen Forschungsansatz.
Die Dissertation von Informatiker Fabian Sturm, der seine Promotion am Promotionszentrum Angewandte Informatik (PZAI)“ bzw. bei Bosch 2025 erfolgreich abgeschlossen hat, baut auf der Erkenntnis auf, dass industrielle Montageprozesse keine isolierten Ereignisse sind, sondern auf wiederkehrenden Bewegungsprinzipien basieren. Arbeitsschritte wie Greifen, Einstecken oder Schrauben findet man auch in alltäglichen Prozessen: nach einer Tasse greifen, ein Ladegerät in die Steckdose stecken oder den Deckel einer Flasche zudrehen. Dies hat sich der Nachwuchsforscher zunutze gemacht, um vom Alltag für industrielle Montageprozesse zu lernen.
Von der YouTube-Schule in die Fabrik
Damit der digitale Mentor, genauer gesagt die dahinterstehende KI, diese Bewegungen lernen kann, müsste man tausende Stunden Montagevideos von Hand markieren („Hier wird gegriffen“, „Hier wird gesteckt“), um diese Daten anschließend dem KI-Modell zu zeigen. In der Industrie hat dafür niemand Zeit und viele Firmen hüten ihre Videodaten zudem wie einen Schatz. Das liegt daran, dass die optimierte Arbeitsweise beim Zusammenbau von Produkten eine Garantie für hohe Qualität ist – und damit in der Regel ein Betriebsgeheimnis.
Sturm umging diesen Engpass, indem er den digitalen Mentor in die „Schule“ schickte. „Der KI-Mentor lernte allgemeine menschliche Bewegungen, indem er Alltagsvideos auf YouTube beobachtete“, erläutert der Forscher. „Wie greift man eine Tasse? Wie schraubt man eine Flasche zu?“ Durch „Unüberwachtes Lernen“ (eine Methode des Machine Learning) lernte der Mentor selbstständig den Kontext von Bewegungen. Das dafür gewählte Verfahren gleicht einem Lückentext aus der Schule: Anhand von Lücken in den YouTube-Videos musste das System rekonstruieren, wie Bewegungen weitergehen.
Als der digitale Mentor dann in der echten Fabrik zum Einsatz kam, konnte er unterschiedliche, im normalen Leben gebräuchliche Bewegungen wie Greifen, Loslassen und Festhalten bereits unterscheiden. Anstatt alles von Grund auf neu zu lernen, musste er nur noch die besonderen Aktivitäten in der Industriemontage verstehen. Das Ergebnis ist eine „Daten-Diät“: Er benötigt bis zu 80 Prozent weniger markierte Daten als herkömmliche KI-Modelle, die nicht in die „Schule“ geschickt wurden, und ist zudem genauer, da er nun die Bewegungserkennung nur noch verfeinern muss. Wie aber schafft es der digitale Mentor, innerhalb dieser Daten Bewegungen als solche zu erkennen?
Zwei Gehirnhälften für eine Bewegung
Um eine Montagebewegung zu verstehen und Profis eine Unterstützung sein zu können, müssen zwei Fragen gleichzeitig beantwortet werden: Wo ist die Hand? Und: Was tut sie gerade über die Zeit hinweg? Es geht also darum, räumliche und zeitliche Daten zu verknüpfen. Das Problem: Herkömmliche Systeme scheitern oft an der hohen Datenmenge auf Grund der Bildauflösung und der Vielzahl von sich wiederholenden Videos aus der industriellen Montage. Wenn sich in einem Video außerdem immer nur in einem kleinen Bildausschnitt etwas bewegt (zum Beispiel Hände am unteren Bildrand, die etwas greifen oder montieren), ist die Auswertung der Bildinhalte zu einem großen Teil reine Rechenzeit-Verschwendung.
Sturms Ansatz ist vergleichbar mit einem digitalen Skelett: „Das System reduziert das hochauflösende Videobild auf die wesentlichen 3D-Gelenkkoordinaten der menschlichen Hand, d.h. auf die Fingerspitzen der jeweiligen Finger, die Gelenkglieder und das Handgelenk“, sagt Sturm. Anschließend agiert die KI auf Basis dieser Gelenkinformationen ähnlich wie zwei Gehirnhälften. Die eine Gehirnhälfte konzentriert sich auf den Raum, die Stellung der Fingerkoordinaten, die andere Gehirnhälfte auf die Zeit, den Ablauf der Bewegungskoordinaten. Am Ende werden beide Hälften wieder zusammengeführt und die Hälfte, die sich am sichersten war, entscheidet welcher Arbeitsschritt durchgeführt wurde.
Doch erst der Austausch macht den Meister. Wenn die räumliche Hälfte einen Griff erkennt, helfen kleine Informationen der zeitlichen Hälfte zu verstehen, dass gerade ein „Schraubvorgang“ beginnt. Dasselbe gilt für die Gegenseite. Dieser ständige interne Dialog im KI-System führt dazu, dass der digitale Mentor lernt, ob ein Bauteil bewegt und ob die richtige Drehbewegung eingesetzt wurde. Das heißt, es werden schon im Denkprozess Informationen ausgetauscht, um von beiden Dimensionen zu profitieren und zu entscheiden, um welche Bewegung es sich handelt, und nicht erst nachdem die jeweilige Gehirnhälfte schon eine Entscheidung getroffen hat. „In meiner Arbeit konnte ich nachweisen, dass die Erkennungsgenauigkeit von 87 Prozent auf 99 Prozent steigt, wenn diese beiden Ebenen gezielt Informationen austauschen“, berichtet Sturm. Durch diese präzise Abstimmung können somit fast alle Bewegungsabläufe fehlerfrei und eindeutig erkannt werden.
Ein Partner, kein Aufpasser
Damit dieses System in der Praxis akzeptiert wird, darf es kein „digitaler Aufpasser“ sein – und das soll es auch nicht. In seiner Arbeit entwickelte Sturm eine Softwarearchitektur, die es einem KI-System ermöglicht, kontinuierlich zu lernen. Durch ein kombiniertes Lernverfahren erkennt das System zusätzlich selbstständig neue, ähnliche Arbeitsschritte und verbessert sich im laufenden Betrieb – ähnlich wie ein Auszubildender, dem man die Grundlagen zeigt und der sich den Rest durch Beobachtung des Alltags selbst aneignet.
Es geht also darum, Menschen zu unterstützen und zu fördern – in einer Art Symbiose: Der Mensch bringt seine Flexibilität und Erfahrung ein, während die KI als digitaler Mentor im Hintergrund Sicherheit gibt. „So sichert der digitale Mentor die Qualität der industriellen Produktion“, bilanziert Sturm. „Nicht gegen den Menschen, sondern mit ihm gemeinsam.“
Kontakt zur h_da-Wissenschaftsredaktion
Christina Janssen
Wissenschaftsredakteurin
Hochschulkommunikation
Tel.: +49.6151.533-60112
E-Mail: christina.janssen@h-da.de