Wie werden wir mit Maschinen sprechen?

Intelligent und empathisch – Informatiker und Computerlinguist Norbert Pfleger über die Fortschritte und Herausforderungen, einen Sprachassistenten zu programmieren, der uns Menschen wirklich versteht.

22.02.2019 Interview: Steffan Heuer Illustration: Jonathan Castro, Foto: paragon semvox GmbH Lesezeit: 8 min

man and machine

man and machine

Herr Dr. Pfleger, immer mehr Menschen haben Sprachassistenten im Haushalt oder im Fahrzeug. Was muss hinter den Kulissen passieren, damit ich eine Maschine fragen kann: „Was läuft heute Abend im Kino?“
Norbert Pfleger: Am Anfang steht das Spracherkennungssystem, welches eine Abbildung des Frequenzverlaufs der Stimme aufnimmt – also welche Worte das System gehört zu haben glaubt. Gute Mikrofone mit Geräuschunterdrückungsfunktion sind hier sehr nützlich. Das liefert uns eine erste Idee, was der Benutzer gesagt haben könnte. Deswegen benötigen wir als zweiten Schritt einen Dialogmanager, der im Kontext der Situation die wahrscheinlichste Interpretation ableiten kann: Was hat der Benutzer gemeint? Dann benötigen wir den Zugriff auf Hintergrundinformationen, in der Regel Geräte, Anwendungen und internetbasierte Dienste, zum Beispiel welche Filme in welchem Kino laufen.

Also braucht man den zeitnahen Zugriff auf möglichst viele Datenbanken?
Genau. Ein wirklich smarter digitaler Assistent muss in der Lage sein, den Kontext – oder das Weltwissen – zu berücksichtigen. Ich zum Beispiel sitze gerade in Saarbrücken, es ist kurz nach 20 Uhr, also interessiert mich, welche Filme in der Spätvorstellung um 22 Uhr laufen. Zusätzlich muss ein guter Assistent auch gelernte Informationen einbinden, etwa weil er weiß, dass ich lieber Actionfilme sehe als Romanzen, und er genau deswegen gezielt einen für mich passenden Film empfehlen kann. All das geht nur mit Intelligenz, und nur so generiert der Assistent einen echten Mehrwert. Und am Ende braucht man eine Komponente, die aus diesen gewonnenen Informationen eine Präsentation ausgibt. Was bringe ich verbal, was zeige ich lieber auf dem Bildschirm? Denn es macht keinen Sinn, eine lange Liste mit 40 Filmen vorzulesen.

Sind wir mal ehrlich – die gängigen Benutzerschnittstellen sind zu solchen Empfehlungen meist nicht in der Lage. Woran liegt das?
In der Realität hakt es oft an einfachen Dingen wie dem Akzent oder Doppeldeutigkeiten. Heutige Smart Speaker sind einfach noch nicht auf dem Level eines Assistenten, da ihnen der Kontext und die gelernten Informationen über den Nutzer fehlen. Gute Systeme können demgegenüber mit Ellipsen, also unvollständigen Sätzen, oder Referenzen umgehen. Unser System in einem Audi A8 etwa weiß, dass ich gerade mit jemandem telefoniert habe, und es versteht, wenn ich nach dem Gespräch sage: „Fahr mich dorthin.“

Für einen echten Dialog auf Augenhöhe brauchen wir smarte Begleiter, die in der Lage sind, den Kontext oder das Welt­wissen - zu berück­sichtigen.

Dr. Norbert Pfleger, Informatiker und Computerlinguist

Was sind nach dem heutigen Stand der Technik die größten Hürden für wirklich intelligente Sprachassistenten?
Das sind insbesondere zwei Themenbereiche. Einmal sind die Integration und Tiefe der Vernetzung der Services noch nicht gegeben, um Aufgaben zu delegieren. Man kann es auch mit unzureichender Intelligenz beschreiben. Assistenten sind heute im Grunde genommen eine Ansammlung isolierter Anwendungen. Ich muss beispielsweise sagen: Hallo Sprachdienst, sag MyTaxi, dass ich ein Taxi brauche. Das heißt für mich als Anwender, dass ich den Namen der App oder des Skills kennen und wissen muss, wie ich sie bediene. Ich gehe also unnötig viele Schritte. Eigentlich will ich nur sagen: Ruf mir ein Taxi, und das System erledigt den Rest. Das ist ein ähnliches Problem wie bei einem Smartphone. Man muss ewig hin und her scrollen, um die richtige App zu finden.

Und was ist die zweite Hürde?

Obendrein sind das alles immer noch sehr technische Schnittstellen, die mich auf sehr uniforme Art und Weise ansprechen. Was fehlt, ist das Mitgefühl, die Empathie. Ich will einen Assistenten, der mich versteht und darauf eingeht, wie ich mich fühle, und mir selbst auf emotionaler Ebene begegnen kann. Wenn er sich auf den Gefühlszustand des Nutzers einstellt, wird der Dialog besser. Nehmen wir einmal an, ich stecke im Verkehr und bin gestresst, dann kommt eine Erinnerung schlecht an, schnell noch etwas zu besorgen. Aber wenn das System weiß, wie es mir geht, kann es den Hinweis anders vorbringen. Smart Speaker heute dienen vor allem für kurze Aufgaben wie Lichtsteuerung, Musik hören und Nachrichten verschicken. Doch wenn Systeme immer mehr Aufgaben im Alltag übernehmen, dann müssen sie anders mit uns umgehen, sonst schafft es Verärgerung und Akzeptanzprobleme.

Auch wenn wir erst am Anfang stehen: Wie hat die Spracherkennung bislang unseren Alltag verändert?
Ganz klar werden diese Systeme immer mehr im Alltag verwendet – insbesondere von Kindern. Ich sehe das in meiner Familie. Für meine zwei Töchter im Alter von sechs und zehn Jahren ist es die normalste Sache der Welt, mit einem Gerät zu sprechen, etwa um den Fernsehsender zu wechseln. Sie haben sofort und intuitiv verstanden, dass es ein effizienter Weg ist, um etwas zu erledigen.

voice recognition

voice recognition

Ich gehe davon aus, dass wir weniger mit Maschinen umgehen, sondern uns auf eine Kombination aus mehreren Schnittstellen wie Sprache, Gestik oder Touchscreens mit künstlicher Intelligenz verlassen.

Dr. Norbert Pfleger

Und wie verhält es sich am Arbeitsplatz?
Auch da nehmen solche Systeme einen immer größeren Raum ein, da sie Zeit und Kosten sparen, etwa um Texte in Anwaltskanzleien oder Arztbriefe zu diktieren. Selbst bei der Medizintechnik gibt es Beispiele. Ein Kunde von uns stellt ein Robotiksystem für die Kameraführung bei minimalinvasiver Chirurgie her. Der Arzt, der beide Hände am Operationsbesteck hat, kann die Kamera mit der Sprache steuern. Das gibt einen immensen Zugewinn an Flexibilität, denn der Arzt muss nicht auf eine OP-Schwester oder Arzthelferin warten. In fast allen Warenlagern werden inzwischen Sprachdialogsysteme eingesetzt, die Arbeitern sagen, wo das nächste Produkt liegt, damit sie beide Hände freihaben. So lassen sich mit Sprache unterm Strich viele Arbeitsabläufe optimieren und Wartezeiten reduzieren.

Was kommt in Zukunft auf uns zu? Skizzieren Sie doch einmal, wie Sprachsteuerung die vernetzte Welt in fünf oder zehn Jahren bestimmen wird.
Bestimmen würde ich nicht sagen, eher, dass Sprachsteuerung uns im Alltag unterstützen wird. Diese Systeme werden einerseits kontinuierlich verfügbar sein und gleichzeitig sehr stark im Hintergrund wirken, sodass wir sie nicht ständig wahrnehmen. Ich gehe davon aus, dass wir weniger mit Maschinen umgehen, sondern uns auf eine Kombination aus mehreren Schnittstellen wie Sprache, Gestik oder Touchscreens mit künstlicher Intelligenz verlassen. Diese Systeme werden gar nicht so viele Befehle benötigen, sondern können mit dem, was sie von uns und über uns gelernt haben, eine intelligente und deswegen sanfte Unterstützung bieten. Die klassischen Bedienschnittstellen werden Schritt für Schritt wegfallen und durch ein übergeordnetes System ersetzt werden – die Intelligenz verschwindet dabei im Hintergrund meines Alltags.

technology transfornation

technology transformation

Von Tastaturen, Touchscreens und Gesten einmal abgesehen – ist Sprache für uns Menschen wirklich die natürlichste Art der Kommunikation mit Maschinen?
Sie ist eine der effizientesten Arten, aber nicht die alleinige. Es hängt immer davon ab, was ich gerade tun möchte. Etwa eine IBAN zu diktieren, das funktioniert schon in der Mensch-zu-Mensch-Kommunikation nicht gut, weil ich mich verspreche oder falsch mitschreibe. Am besten ist es, solche Informationen direkt einzutippen oder abzufotografieren. Es geht also um eine Kombination oder multimodale Systeme, bei denen der Anwender entscheiden kann. Wenn ich das Licht mit einem Sprachkommando ein- oder ausschalten kann, dann ist das unnötig, wenn ich direkt neben dem Schalter stehe, aber sehr nützlich, wenn ich gerade auf der Couch sitze.

Dr. Norbert Pfleger

Dr. Norbert Pfleger

Der promovierte Informatiker Dr. Norbert Pfleger arbeitete von 2002 bis 2008 am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und ist Mitbegründer und Geschäftsführer der Firma paragon semvox GmbH in Saarbrücken. Das Unternehmen ging 2008 aus einem Projekt am DFKI hervor und entwickelt semantische Technologien und Sprachkommunikationslösungen, unter an derem ein natürlichsprachliches Sprachdialogsystem im Audi A8. 2018 wurde das Unternehmen Teil der paragon GmbH & Co. KGaA.

Andererseits darf ein solches System auch nicht zu menschlich daherkommen, weil es bei uns sonst zu große Erwartungen weckt, die schnell enttäuscht werden.

Dr. Norbert Pfleger

Welche anderen, eher futuristischen Bedienungsmöglichkeiten erkennen Sie am Horizont?
Wenn man sich ansieht, wie wir als Menschen kommunizieren, gibt es noch viele Möglichkeiten. Wir tauschen uns mit Gesten, Mimik und Blicken aus. All das sind wichtige Input-Quellen für die Zukunft. Die Steuerung mit Gedanken ist der nächste große und spannende Schritt, um etwas abzuleiten, ohne dass gesprochen oder gehandelt wird.

Sind wir angesichts dieser vielen, noch offenen Baustellen von einem wirklich intelligenten Sprachbegleiter noch weit entfernt oder bereits auf dem besten Wege dorthin?
Die Technik steckt noch in den Kinderschuhen, auch wenn wir immense Fortschritte bei Mikrofonierung und Spracherkennung gemacht haben. Doch von einem wirklich intelligenten Begleiter können wir noch nicht sprechen. Das sehe ich immer recht gut, wenn ich Vorträge halte und meine Zuhörer frage, wer einen Smart Speaker nutzt. Da melden sich 80 bis 90 Prozent, aber wenn ich nachfrage, wer diese Systeme als echten Assistenten betrachtet, geht keine Hand hoch.

Maschinen ist es egal, ob wir „bitte“ oder „danke“ sagen, sie hören nur auf Kommandos. Wie wird Sprachsteuerung unser zwischenmenschliches Verhältnis verändern?
Das ist eine Frage der Perspektive, nämlich inwiefern wir es schaffen werden, Empathie einzubauen, sodass ein System nicht nur der stupide Befehlsausführer ist, sondern mir auf Augenhöhe begegnet. Das wird sich auf unser Verhalten gegenüber Maschinen auswirken. Es ist auch eine Frage des Produktdesigns. Der Assistent muss eine gewisse Form der Höflichkeit bzw. des Charakters an den Tag legen, dann spiegeln wir das. Andererseits darf ein solches System auch nicht zu menschlich daherkommen, weil es bei uns sonst zu große Erwartungen weckt, die schnell enttäuscht werden.

 

communicate naturally

communicate naturally

Es gibt ganz klar Bereiche, in denen elektronische Geräte nichts verloren haben, etwa im Schlafzimmer oder im Kinderzimmer.

Dr. Norbert Pfleger

Viele Nutzer haben Bedenken, dass in ihrem Alltag ein Kasten steht, der immer zuhört und vielleicht alles mitschneidet oder übermittelt...
Da wird es eine klare Grenzziehung geben müssen. Zentralisierte Cloud-Dienste für Sprachassistenten, wie wir sie heute haben, erwarte ich in dieser Form nicht für die Zukunft. Das Thema Edge Computing – etwa einen Server in meinem eigenen Haus zu haben – wird an Bedeutung gewinnen. Als Person sollte ich eine digitale Repräsentanz in Form eines Assistenten haben, bei dem ich kontrolliere, wo die Daten lagern und bearbeitet werden, und den ich auf andere Plattformen mitnehmen kann. Das werden allerdings keine kostenlosen Modelle mehr sein. Stattdessen messe ich meinem intelligenten Begleiter so große Bedeutung bei, dass ich bereit bin, dafür zu bezahlen. So wird auch ein zentrales Akzeptanzproblem aus der Welt geräumt, nämlich dass Anwender eine begründete Angst haben, ihre Daten würden missbraucht.

In welchen Teilen Ihres Alltags haben Sprachassistenten nichts verloren?
Ich würde die Grenze weiter fassen. Es gibt ganz klar Bereiche, in denen elektronische Geräte nichts verloren haben, etwa im Schlafzimmer oder im Kinderzimmer. Es geht um das Thema des elektronikfreien Raums, der für eine gewisse mentale Hygiene sehr wichtig ist.

ALEXA an Bord

Der neue, rein elektrisch angetriebene Audi e-tron hat auf Wunsch des Kunden den cloudbasierten Sprachdienst Alexa von Amazon über das Connect+- Paket (drei Jahre Serie, anschließend kostenpflichtige Verlängerung) voll in das MMI-Bediensystem des Autos integriert – ein Smartphone ist nicht erforderlich. So können nicht nur Musik und Hörbücher über Amazon Music und Audible gestreamt werden (separates, kostenpflichtiges Abo und Datenvolumen er forderlich), sondern auch Lebensmittelbestellungen aufgegeben oder mit der Smart-Home-Steuerung direkt aus dem Auto heraus Türen im Haus verriegelt, die Beleuchtung geregelt und das Garagentor geschlossen werden.

 

Audi in Ihrem Land

    Audi e-tron
    Audi e-tron

    Serienmodelle

    Audi e-tron

    Persönlicher Freiraum, ein leistungsstarkes Fahrerlebnis und selbstbestimmte Mobilität.

    Mehr erfahren

    Stromverbrauch kombiniert*: 24,6–23,7 kWh/100km (NEFZ); 26,4–22,9 kWh/100km (WLTP)CO₂-Emissionen kombiniert*: 0 g/km

    Stromverbrauch kombiniert*: 24,6–23,7 kWh/100km (NEFZ); 26,4–22,9 kWh/100km (WLTP)CO₂-Emissionen kombiniert*: 0 g/km

    Das könnte sie auch interessieren

    Schließen

    Audi weltweit

    Wechseln Sie zu Ihrer Audi Landes-/Vertriebsregionsseite und entdecken Sie aktuelle Angebote und Details zu Modellen, Produkten und Services in Ihrem Land / Ihrer Vertriebsregion.

      Schließen

      Fehlermeldung

      Das Feedback-Formular ist momentan nicht verfügbar.
      Bitte versuchen Sie es später nochmal.

      Deaktivieren Sie ggf. Ihren Ad-Blocker, um das Feedback-Formular aufrufen zu können.

      Diese Website verwendet Cookies. Indem Sie die Website und ihre Angebote nutzen und weiter navigieren, akzeptieren Sie diese Cookies. Diese können Sie in Ihren Browsereinstellungen ändern.