Deep Learning bringt Machine Vision auf das nächste Level

Deep Learning ist eine der Schlüsseltechnologien für künftige Entwicklungen im Bereich des rechnergestützten Sehens. Wir sprachen mit Jeff Bier, dem Gründer der Embedded Vision Alliance, über die Möglichkeiten von Deep Learning, den Einfluss dieser Technologie auf das rechnergestützte Sehen und das erste Deep Learning-Training in Deutschland, das die Embedded Vision Alliance auf Basis des Open Source Frameworks TensorFlow von Google durchführt.

Bild: Embedded Vision AllianceBild: Embedded Vision Alliance

Deep Learning scheint derzeit eine Art magischer Begriff in der Welt des rechnergestützten Sehens zu sein. Können Sie diese Technologie kurz beschreiben?

Jeff Bier: Klassische Algorithmen für die optische Erkennung werden häufig noch von Grund auf von Ingenieuren für sehr spezifische Aufgaben entwickelt. Um zum Beispiel bestimmte Typen von Objekten zu identifizieren spezifizieren die Entwickler von Algorithmen typischerweise kleine Objektmerkmale wie z.B. Ecken oder Kanten, die durch den Algorithmus dann erkannt werden sollen. Danach geben die Entwickler vor, wie Gruppen dieser kleinen Merkmale dazu verwendet werden können, um größere Merkmale zu identifizieren, und so weiter. Solche Ansätze funktionieren sehr gut, solange die zu erkennenden Objekte sehr ähnlich und die Bedingungen für die Erkennung günstig sind. Ein Beispiel dafür ist, wenn Flaschen auf einer Abfüllanlage daraufhin überprüft werden, ob die richtigen Etiketten auf korrekte Weise angebracht wurden. Derartige Ansätze erweisen sich allerdings häufig als problematisch, sobald die Randbedingungen schwieriger werden, also wenn z.B. die Prüfobjekte deformiert sein können, wenn es signifikante Variationen des Aussehens von einem zum nächsten Objekt geben kann, oder wenn die Beleuchtungssituation nicht optimal ist. Auf Basis der jüngsten Weiterentwicklungen bei Prozessoren und Sensoren kann man davon ausgehen, das Algorithmen heute den Flaschenhals bei der Entwicklung von effektiven 'sehenden Maschinen' darstellen. Tiefe neuronale Netze stellen einen völlig anderen Ansatz für die optische Erkennung dar, und nicht nur dafür, denn diese Technologie kommt auch in vielen anderen Bereichen zum Einsatz. Kurz gesagt: Statt einer Maschine zu 'sagen', wie sie Objekte erkennen soll ('suche erst nach Ecken, dann nach Kanten, die einen Kreis bilden könnten' etc.) ist es mit künstlichen neuronalen Netzen möglich, Algorithmen zu 'trainieren', indem man ihnen eine große Anzahl von Beispielen zeigt und dann eine Feedback-Prozedur nutzt, die automatisch und auf Basis der Beispiele die Funktionalität des Algorithmus adaptiert. Etwas spezifischer gesagt: Convolutional Neural Networks sind massive parallele Algorithmen, die aus mehrlagigen Berechnungsknoten bzw. 'Neuronen' bestehen. Solche Netze führen keine Programme aus. Statt dessen wird ihr Verhalten bestimmt durch ihre Struktur (was ist womit verbunden), die Möglichkeit einfacher Berechnungen, die jeder Knoten durchführt, und Koeffizienten oder Gewichtungen, die durch eine Anlernprozedur bestimmt werden. Anstatt also zum Beispiel zu versuchen, Hunde von Katzen zu unterscheiden, indem man schrittweise eine Art Rezept anwendet, lernt ein Convolutional Neural Network diese Kategorisierung durch das Zeigen einer großen Anzahl von Beispielbildern. Drei Dinge machen diesen Ansatz nun sehr spannend:

1) In vielen Bereichen der Bilderkennung übertreffen tiefe neuronale Netze die Genauigkeit der bislang leistungsfähigsten Techniken erheblich.

2) Das Tempo, mit dem sich die Genauigkeit tiefer neuronaler Netze bei optischen Erkennungsaufgaben verbessert, ist wesentlich höher als alles, was wir im Bereich klassischer Techniken bisher gesehen haben.

3) Mit tiefen neuronalen Netzen können wir eine Reihe allgemeiner Techniken anwenden, um eine Vielzahl optischer Erkennungsaufgaben zu lösen. Das ist ein großer Fortschritt im Vergleich zu klassischen Techniken, wo viele verschiedene Typen von Algorithmen verwendet werden, um unterschiedliche Aufgaben zu lösen.

Embedded Vision Alliance

Dieser Artikel erscheint in Embedded Design 5 2017 - 18.09.17.
Für weitere Artikel besuchen Sie www.embedded-design.net