Blogreihe: Bots und Digitale Assistenten
NTT DATA Business Solutions | März 15, 2022

Die Magie der VoiceBots: Wie funktioniert Natural Language Processing?

Die Faszination von VoiceBots erlebt in jüngster Vergangenheit neue Höhepunkte. Kannte man VoiceBots bisher nur als schwerfällige und künstliche Stimme vom Band, ergeben sich aufgrund neuer technischer Möglichkeiten des Natural Language Processing neue Einsatzszenarios für VoiceBots. Im fünften Teil unserer Blogreihe zu Bots und Digitalen Assistenten zeigen wir Ihnen, wie Natural Language Processing bei VoiceBots funktioniert und welche Voraussetzungen das mit sich bringt. Die Magie ergibt sich daraus, dass Sprache nun vom Computer verstanden werden kann und für menschliche Zuhöhrer*innen wirklichkeitsnahe Dialoge mit persönlichem Touch hervorbringen könne

Der Durchbruch von digitalen Assistenten wie Siri, Alexa und Google Assistant sind ein Beleg dafür, wie VoiceBots bereits einer breiten Bevölkerungsgruppe die lästigen Alltagsaufgaben abnehmen. Doch das Potenzial geht weit über das Stellen des Weckers oder das Abspielen des eigenen Lieblingssongs hinaus.

So ist es Google vor Kurzem mit seinem Dienst Duplex gelungen, einen VoiceBot zu entwickeln, welcher ein künstlich geführtes Gespräch mit einer entsprechend hohen Qualität erzeugen konnte: Der Mensch am anderen Ende der Leitung hatte den Anrufer nicht als Bot „entlarvt“*. Durch ein empathisches Auftreten des VoiceBots – der sich dem natürlichen Gesprächsrhythmus eines Menschen anpasst und sogar in der Lage ist, selbständig Pausen in den Gesprächsfluss einzubauen – wurde erfolgreich telefonisch ein Tisch in einem Restaurant reserviert.

So funktioniert Natural Language Processing für VoiceBots

Hinter all diesen Fortschritten steckt die Technologie des Natural Language Processing, kurz NLP. Darunter versteht man die linguistische Datenverarbeitung in der Informatik. Mittels Machine Learning wird die natürliche Sprache extrahiert, um hier die semantische Bedeutung zu verstehen. Zunächst wird die gesprochene Sprache in einen für den Computer interpretierbaren Text konvertiert. Grundlage hierfür ist die Tokenizer, der den Text in logisch zusammengehöhrenden Einheiten trennt, den sogenannten Tokens. Mit den ausgefeilten Algorithmen des Deep Learning (eine Unterart des Machine Learning) können die Maschinen nun diese Tokens analysieren.

Das Besondere dabei ist die Vielseitigkeit der Analysen: Neben der reinen Semantik, also der Bedeutung des Textes, kann auch das Sentiment, also die Gefühlslage, erkannt werden. Aufbauend auf den Analysen des NLP kann so eine KI dazu trainiert werden, passgenau Texte und Antworten zu generieren. Diese generierten Texte berücksichtigen dabei Semantik, Sentiment und weitere Faktoren des Eingangstextes und sorgen für eine nahtlose Erfahrung bei der Kommunikation mit dem VoiceBot.

Technische Voraussetzungen für die Nutzung von VoiceBots

Damit ein VoiceBot selbstständig interagieren kann, sind natürlich technische Voraussetzungen notwendig. Die Magie entfaltet sich erst, wenn der Bot in Echtzeit kommuniziert und seine Ausgabetexte in eine natürliche Sprache mit Betonungen und wechselnden Tonlagen verpackt. Dafür gibt es standardisierte Services, welche an das bestehende NLP-System angeknüpft werden.

Ausgehend von bisherigen Projekten ist es uns möglich, hier eine passgenaue Lösung zu entwickeln. So nutzen wir die Text-to-Speech und Speech-to-Text Dienste von Microsoft Azure, welche eine hohe Verfügbarkeit und Resilienz gegenüber qualitativen Unterschieden der Spracheingabe garantieren. Die klassischen Aufgaben des NLP werden von selbstentwickelten Tokenization- und Analysediensten bestimmt, welche an Best-Practices aus dem aktuellen Forschungsstand angelehnt sind. Für die Bestimmung der Gefühlslage – also der Sentiment-Analyse – gibt es zusätzlich noch die Möglichkeit auf Dienste von Azure (Cognitive Service for Language) und SAP (Service Ticket Intelligence) zurückzugreifen.

Zusätzlich kann man mit standardisierten Schnittstellen auf das firmeneigene Backend zurückzugreifen, um via Deep Learning Algorithmen und anwendungsbezogenen Daten eine thematisch passende Antwort zu liefern. Hier wird mittels künstlicher Intelligenz eine passende Information gesucht und gefunden. Mehr dazu können Sie auch im 2. Teil dieser Blogreihe nachlesen.

Natural Language Processing (NLP) als Bestandteil eines VoiceBots.

Abbildung: Natural Language Processing (NLP) als Bestandteil eines VoiceBots.

Kundenkommunikation mit Natural Language Processing (NLP)

Die sich bietende Perspektive durch VoiceBots und der dazugehörigen Nature Language Processing sind richtungsweisend für die neuste Generation der Kundenkommunikation. NLP kann nicht nur dabei helfen per Telefon einen Tisch in einem Restaurant zu reservieren, sondern ist in einer Vielzahl von Use-Cases einsetzbar, insbesondere im Kundenservice und im Informationsmanagement. Die technische Umsetzung ist dabei oftmals unkomplizierter und schneller als man denkt.

Wir bei NTT DATA Business Solutions verfügen neben der Erfahrung in der Entwicklung auch über verschiedene Wege für das Hosting und die Bereitstellung der NLP-Lösungen. Gerne unterstützen wir Sie bei der Evaluierung, Umsetzung und Integration eines VoiceBots in bestehende Prozesse und Systeme.

*1 = https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

 

KONTAKT AUFNEHMEN