Offline-Spracherkennung für die Werkhalle
Sprechen statt tippen
Sprachsteuerung kann bei der Bedienung einer Maschine oder eines Computers nützlich sein, wenn beispielsweise keine Hand frei ist. Dabei ist zwischen Online- und Offline-Geräten zu unterscheiden. Letztere bieten den Vorteil, dass sie auch ohne Netzabdeckung funktionieren.
Die Spracheingabe ist nicht neu. Einen Zulauf erlebte die Technologie zuletzt mit der Markteinführung von Sprachassistenten wie Alexa von Amazon oder Siri von Apple. Pkw-Navigationssysteme können per Spracheingabe Adressen und Namen entgegen nehmen und per Sprachausgabe Meldungen zur Navigation oder Verkehrsstörungen ausgeben. Der Dialog ist dabei oft stark formalisiert, Schlüsselworte müssen an einer bestimmten Position im Satzbau auftauchen, um erkannt und korrekt zugeordnet zu werden. Spracheingabe ist dann sinnvoll, wenn der Anwender damit nicht überfordert wird. Das bedeutet, dass er entweder über weitere Möglichkeiten der Eingabe verfügt, oder die Eingabesyntax so einfach ist, dass kein Lernaufwand erforderlich ist. In Verbindung mit bekannten Bedienmodalitäten kann das SUI (Speech User Interface) mit dem GUI (Graphisches User Interface) kombiniert werden und stellt eine sinnvolle Ergänzung zum Display mit Touchscreen, Tastatur und Maus dar.
Online oder offline?
Grundsätzlich unterscheidet man zwischen Online- und Offline-Sprachsteuerung. Online-Geräte können beispielsweise mit Unterhaltungselektronik vernetzt werden und diese steuern. Sprachsteuerungen, die ein abgeschlossenes System darstellen, können offline eingesetzt werden. Das bietet beispielsweise Vorteile bei geringer Netzabdeckung. Auch für die Industrie wird die Spracheingabe interessant, ermöglicht sie doch weitergehende Bedienvarianten und erhöhte Flexibilität. Durch die lange Lebensdauer einer Maschine und des erhöhten Sicherheitsbedarfs in der Fertigung stellen Anwender jedoch zusätzliche Anforderungen. Sie müssen über einen langen Zeitraum verfügbar und gegebenenfalls erweiterbar sein, das Aktivierungswort (Wake Word) muss frei wählbar sein und es sollten unterschiedliche Sprachen verfügbar sein.
Erkennung auf dem Prozessor
Der Audio-Spezialist Voice Inter Connect hat eine Lösung entwickelt, die ohne Internetanbindung betrieben werden kann - die Erkennung findet lokal auf dem Systemprozessor statt. Dadurch kann die Lösung in Bereichen eingesetzt werden, in denen Daten vertraulich gehalten werden müssen. Die Spracheingabe muss zudem keiner festen Syntax folgen und kann völlig frei gesprochen werden. Das Erkennungsergebnis wird mittels KI-basierter Auswerteverfahren semantisch verarbeitet, damit die gewünschte Funktionsklasse (Intent), die eingegebenen Parameter (Slot) und die dazugehörigen Werte (Value) automisch erkannt und zur Gerätesteuerung bereitgestellt werden können. Weitere Anforderungen sind eine hohe Zuverlässigkeit der Spracherkennung sowie die einfache Integration. Die Kommandos sollten in einer natürlichen Sprache mit freier Wahl des Satzbaus eingegeben werden können, für die Maschine nichtrelevante Füllworte automatisch ignoriert werden. Durch die verschiedene Landessprachen können einerseits Begriffe exakt definiert und den Landesgewohnheiten angepasst und andererseits ungewünschte Begriffe ignoriert werden. Im Servicefall ist ein schneller Zugriff auf den Zustand der Spracheingabe erwünscht, um den Grund für eine Fehlfunktion festzustellen. Für den professionellen Einsatz ist die Langzeitverfügbarkeit essentiell, denn die lokale Sprachsteuerung unterliegt nicht dem Geschäftsmodell eines Cloud-Anbieters, der sein Kostenmodell ändert oder den Dienst abschaltet.
Begleitende Dokumentation
Die Sprachsteuerung kann komplexe Bedienaufgaben durch die Zusammenfassung von Kommandos und Parametern in einem Schritt vereinfachen. Die Unterstützung kann kontextbezogen sein, was insbesondere bei Augmented Reality-Anwendungen wichtig ist. Die Abfrage von Daten in Expertensystemen wird vereinfacht, und digitale Assistenten und Kollaborationstools verbessern Arbeitsabläufe. Ein weiterer Aspekt ist auch die prozessbegleitende Protokollierung. Bestimmte Routineaufgaben können ohne den Einsatz einer bedienenden Hand erledigt werden, und die Maschine kann automatisch auf die Vollständigkeit des geführten Protokolls achten. Dies spielt beispielsweise eine besondere Rolle in der qualitätssichernden Dokumentation. Der Befund kann direkt in das System eingesprochen werden, das die Daten unabhängig an der richtigen Stelle des Protokolls einträgt.
Webbasiert einrichten
Mit Hilfe der webbasierten Entwicklungsumgebung wird das System für die eigene Anwendung definiert. Der Sprachdialog - also das Aktivierungswort, die zulässigen Kommandos und deren Parameter - werden im Webtool als Texteingabe zusammengestellt. Während der Eingabe findet bereits der erste Verarbeitungsschritt statt: Grapheme, also eingegebene Zeichen, werden in Phoneme, also kleinste akustische Bestandteile der Sprache umgewandelt. Daher ist es wichtig, zuerst die Zielsprache festzulegen. Beispielsweise werden die eingegebenen Zeichen 'Size' im Englischen korrekt als 'Seihs' phonemisiert. Sind die Worte definiert, werden mit maschinellen Lernverfahren und KI-basierten Algorithmen die definierten Sprachressourcen in ein statistisches und ein semantisches Modell übersetzt und als Download bereitgestellt. Das Ergebnis wird auf die Zielplattform heruntergeladen und gestartet. Dann kann der Netzwerkstecker gezogen werden - das Endprodukt läuft autark.
Geräuschunterdrückung
Bei der täglichen Unterhaltung hilft die Geometrie des menschlichen Kopfes dabei auch aus einer Vielzahl von Stimmen die eine herauszufiltern, die wir hören wollen. Bei einer elektronischen Lösung wird Geräuschunterdrückung eingesetzt, um die Sprache verständlicher zu machen. Falls sich der Sprecher nicht nah am Mikrofon befindet, kann ein Mikrofon-Array eine weitere Verbesserung bieten, das mittels Beamforming eine hohe Unterdrückung von störenden Geräusche und Signalen abseits der Hauptachse erzielt und damit störende Nebengeräusche wirkungsvoll ausblendet.
Vertrauensvoll produktiv
Sprachsteuerung ergänzt HMI-Systeme um eine weiter Dimension - parallel zum GUI gesellt sich das SUI. Der Offline-Betrieb hält nicht nur Daten vertraulich, sondern steigert auch die Zuverlässigkeit, da die Verbindung zum Internet und die damit vorausgesetzte Erreichbarkeit des Servers wegfällt. Mit mehreren Sprachvarianten, natürlicher Spracheingabe, Unabhängigkeit vom Sprecher und hoher Robustheit auch bei Störgeräuschen ermöglicht das System eine Steigerung der Produktivität, des Komforts und erlaubt eine Bedienung ohne Einsatz von Händen oder Hinsehen.
Sprachsteuerung kann bei der Bedienung einer Maschine oder eines Computers nützlich sein, wenn beispielsweise keine Hand frei ist. Dabei ist zwischen Online- und Offline-Geräten zu unterscheiden. Letztere bieten den Vorteil, dass sie auch ohne Netzabdeckung funktionieren.
Die Spracheingabe ist nicht neu. Einen Zulauf erlebte die Technologie zuletzt mit der Markteinführung von Sprachassistenten wie Alexa von Amazon oder Siri von Apple. Pkw-Navigationssysteme können per Spracheingabe Adressen und Namen entgegen nehmen und per Sprachausgabe Meldungen zur Navigation oder Verkehrsstörungen ausgeben. Der Dialog ist dabei oft stark formalisiert, Schlüsselworte müssen an einer bestimmten Position im Satzbau auftauchen, um erkannt und korrekt zugeordnet zu werden. Spracheingabe ist dann sinnvoll, wenn der Anwender damit nicht überfordert wird. Das bedeutet, dass er entweder über weitere Möglichkeiten der Eingabe verfügt, oder die Eingabesyntax so einfach ist, dass kein Lernaufwand erforderlich ist. In Verbindung mit bekannten Bedienmodalitäten kann das SUI (Speech User Interface) mit dem GUI (Graphisches User Interface) kombiniert werden und stellt eine sinnvolle Ergänzung zum Display mit Touchscreen, Tastatur und Maus dar.
HY-LINE Holding GmbH
Dieser Artikel erschien in IT&Production 1 (Januar Februar) 2020 - 06.02.20.Für weitere Artikel besuchen Sie www.it-production.com