Anwendungssteuerung durch Sprache Wird das gesprochene Wort zum wichtigsten Steuerungsmittel?
Stimmenaktivierungssysteme haben das Potenzial, Aktivitäten enorm zu vereinfachen und zu automatisieren. Während sich im Consumer-Markt persönliche Sprachassistenten, wie Siri, Cortana und Google Assistant zunehmender Beliebtheit erfreuen, gibt es im Unternehmensumfeld noch einige Hürden zu meistern.
Anbieter zum Thema

Für Gottlieb Stiebner, Business Development Cloud Services beim Telekommunikationsanbieter Alcatel Lucent (ALE), ist klar: „Es kann noch lange dauern, bis wir jemanden treffen, der alle Eigenschaften von HAL aus „2001: Odyssee im Weltraum“ aufweist. Klar ist aber auch, dass es bereits Technologien gibt, mit denen Unternehmen ihren operativen Betrieb erheblich optimieren können.“
Die Herausforderungen in Unternehmensumgebungen
Wie weit sind wir auf dem Weg zur Sprachsteuerung vorangekommen? Die Stimmenanalyse-Firma VoiceLabs hat die verschiedenen Schichten beschrieben, die nötig sind, um einen Voice-First-Ansatz in der Verbraucherwelt umzusetzen. Bevor wir jedoch neben den einfachen verbraucherorientierten Anwendungsfällen auch Anwendungen in komplexen mehrsprachigen Unternehmensumgebungen unterstützen können, müssen noch ein paar Dinge passieren.
Sicherer Zugang
Soll jeder in der Lage sein, unternehmenskritische Geräte oder Systeme zu kontrollieren, indem er einfach nur spricht? Auch Datenschutz ist in vielen Branchen ein wichtiges Thema: Sind beispielsweise die Rechte eines Patienten verletzt, wenn durch Sprachbefehle die medizinischen Daten eines Patienten an Dritte gelangen?
Es gibt bereits die nächste Generation der Spracherkennungssysteme, bei der die Technologie einen sicheren Zugang unterstützt.
Banken nutzen diese Systeme, um die Sprachauthentifizierung für ihre Telefonbanking-Systeme einzuführen. Einige Kunden machen sich dabei Sorgen um die Sicherheit ihres Kontos. Vermutlich werden wir hier jedoch einen vergleichbaren Adoptionszyklus sehen wie beim E-Commerce. Dort mussten auch erst die anfänglichen Bedenken bezüglich eines möglichen Kreditkartenbetrugs überwunden werden, bevor es zum kometenhaften Aufstieg des Online-Shoppings kommen konnte.
Während unsere Mikrowelle uns nicht ausspionieren kann, werden einige Geräte immer eingeschaltet sein und möglicherweise immer bereit, uns aufzunehmen. Das heißt, dass ein großer An-/Aus-Schalter oder eine entsprechende Funktion in die Voice-First-Produkte aufgenommen werden muss, damit der Anwender die Vorteile nutzen kann, ohne eine ständige Überwachung befürchten zu müssen. Außerdem ist es wichtig, dass die Produkte über einen zuverlässigen sicheren Software-Zugang verfügen, um Hacking-Angriffe zu verhindern und zu erkennen.
Bessere Spracherkennungssysteme
Die ersten Anwendungsfälle sind vor allem Sprachdialogsysteme, wie sie beispielsweise in Call-Centern eingesetzt werden oder in unseren Autos und Smartphones implementiert sind. Aber wie viele von uns aus eigener Erfahrung wissen, funktionieren diese Systeme nicht zuverlässig. Spracherkennung und Kontextualisierung müssen durch technologische Entwicklungen noch deutlich verfeinert werden, bevor wir realistisch über einen unternehmensweiten Einsatz nachdenken können.
Forschungsprogramme wie das Sphinx-Projekt der Carnegie-Mellon-Universität verbessern die Spracherkennung immer weiter. DerInternet-Trends-Bericht von Mary Meeker kam zu dem Schluss, dass das Spracherkennungssystem von Google im Jahr 2016 über fünf Millionen Wörter mit einer Genauigkeit von rund 90 Prozent erkennen konnte. Aber das ist noch lange nicht umfangreich oder genau genug. Oder reicht eine Genauigkeit von 90 Prozent etwa aus, wenn es um die Steuerung von lebenserhaltenden Apparaten in einem Krankenhaus oder die Interaktion mit dem Netzwerk eines Versorgers geht?
Es geht ja auch nicht nur um die Erkennung von Wörtern, sondern auch um das, was mit den Wörtern zu tun ist. Hier kommen Cognitive Engines und KI ins Spiel. Einige der großen Anbieter in der Branche – zum Beispiel Microsoft mit seiner Open Source Cognitive Recognition Engine – unterstützen die Systeme dabei, den Kontext der Wörter zu verstehen. „Wie komme ich zum Bahnhof?“ mag einfach klingen, aber es muss zum Beispiel mit Hilfe von Standorterkennung in den richtigen Kontext gebracht werden.
Die Suche nach dem tieferen Sinn
Die eigentliche Herausforderung besteht aber in dem, was sich hinter den Spracherkennungssystemen verbirgt – von der Integration der IoT-Geräte bis hin zum System selbst. Und in der Notwendigkeit sicherzustellen, dass die gegebenen Befehle einen Sinn ergeben. Hier müssen wir die Cognitive Engines noch mehr für die Prüfung und Validierung einsetzen.
Nehmen wir an, jemand gibt aus Versehen den Befehl „Kühlsystem des Reaktors 4 abschalten“ – gemeint ist aber Reaktor 3, der bereits heruntergefahren ist. Oder ein Arzt verschreibt über das System die Überdosis eines Medikaments, weil er versehentlich 400 Gramm sagt statt 400 Milligramm. Das mögen ausgefallene Beispiele sein, sie zeigen aber die Notwendigkeit einer ganzheitlichen Sicht auf die Aktionen, die automatisiert gesteuert werden. Nur so kann menschliches Versagen verhindert und eine Intelligenz bereitgestellt werden, die die durch die Sprachsteuerung ausgelösten Handlungen bewerten kann.
:quality(80)/images.vogel.de/vogelonline/bdb/1280000/1280026/original.jpg)
KI von IBM, Google, AWS und Microsoft
KI-Services als Geschäftsmodell
API-Plattformen für sprachintegrierte Systeme
Ein interessantes Element, das strategisch mit der Entwicklung von echten sprachgesteuerten Unternehmensumgebungen zusammenhängen kann, beruht auf den Innovationen in der traditionellen Sprachkommunikation. Wir erleben einen explosionsartigen Anstieg von CPaaS (Communication Platform as-a-Service) im Unternehmen, die APIs nutzen, um die bestehenden Anwendungen zu sprachintegrierten Lösungen weiterzuentwickeln. Einige der großen Sprachkommunikationsanbieter treten jetzt in diesen Markt ein. Sie bieten CPaaS-Infrastrukturen mit einem Standard-Set an APIs, mit denen Unternehmen die Kommunikation in ihre Geschäftsprozesse integrieren können.
Traditionell betrachten wir die Integration von Sprach- und Videodiensten in bestehende Anwendungen – denken Sie nur an eine Bankanwendung, die Ihnen erlaubt, vom Online-Banking direkt zu einem Sprachanruf mit Ihrem Bankberater zu wechseln. Diese Dienste werden auch eine große Rolle in der „Voice First“-Umgebung spielen werden, indem sie die umfassende API-Infrastruktur der CPaaS-Plattformen nutzen, um mit Anwendungen und Dingen zu kommunizieren.
Neben den Anforderungen an die Kommunikationsinfrastruktur muss die Art und Weise, wie CPaaS oder andere Plattformen mit Geräten kommunizieren, standardisiert werden, bevor wir eine schnelle Entwicklung der Sprachtechnologie sehen werden. Jedes der heutigen sprachgesteuerten Verbrauchersysteme hat eigene Schnittstellen und eigene API-Integrationen. Wie bei dem historischen Kampf „Beta vs. VHS“ vor Jahrzehnten kann das zum Veralten von Produkten führen. Verbraucher wollen nicht die neueste "smarte Kaffeemaschine" kaufen, wenn die Plattform, die sie steuert, gerade eingestellt wurde. Und genauso möchten Unternehmen sicherstellen, dass die neuen Technologien, in die sie investieren, nicht veraltet sind, bevor die Investition sich amortisiert hat.
Das Beste kommt noch
Erfreulicherweise wird gerade eine Reihe von Technologien entwickelt, mit denen die Gefahr verringert wird, das Technologien zu schnell überholt werden. Frameworks wie das Open Source Projekt IoTivity wollen eine standardisierte Plattform bauen. Wir erleben die Vorteile und die schnelle Ausbreitung neuer Sprachanwendungen bereits B2C-Umfeld. In naher Zukunft werden wir sehen, wie einige Anwendungsfälle auch in den Unternehmen zum Tragen kommen. Längerfristig wird es angesichts der Fortschritte bei der Spracherkennung, Sprachsicherheit und bei der Vereinfachung und Standardisierung der Gerätekonnektivität immer mehr Voice-First-Aktivitäten sowohl in der Konsumenten- als auch in der Enterprise-Welt geben, um die Komplexität zu reduzieren und unsere Produktivität zu steigern.
:quality(80)/images.vogel.de/vogelonline/bdb/1236600/1236650/original.jpg)
Smart Procurement
Alexa, frag POOL4TOOL!
:quality(80)/images.vogel.de/vogelonline/bdb/1253700/1253761/original.jpg)
Steuerung mit Gesichtsgesten
EarFieldSensing misst das "Lächeln" im Ohr
*Gottlieb Stiebner arbeitet im Business Development Cloud Services bei ALE.
(ID:44884016)