Sprachassistenten

Alexa, Siri, Google und Cortana im großen Alltags-Check

Die Zukunft gehört dem gesprochenen Wort. Auch wenn digitale Sprachassistenten wegen der Sicherheitsbedenken auf geteiltes Echo stoßen, erfreuen sie sich zunehmender Beliebtheit. Wir haben vier große Anbieter einem Intelligenztest unterzogen.
Von Dennis Knake

Sprachassistenten im Alltagstest Sprachassistenten erobern unseren Alltag. Doch was taugen die smarten Helfer wirklich?
Foto: © Dennis Knake
Ob als Lautsprecher in der Wohnung, als Sprachassistent auf dem Computer oder das schnelle „Helferlein“ im Smartphone. Vier große Anbieter buhlen um die Gunst der Nutzer. Vier große Anbieter? Nun, eigentlich sogar noch mehr. Mit Samsung ist spätestens zum gerade beendeten Mobile World Congress in Barcelona ein weiterer Anbieter am Start. Bixby lautet der Produktname und soll auf den neuen Galaxy S9 Flaggschiff-Modellen eine Rolle spielen. Und auch die Telekom hat auf der Messe ihren eigenen Prototypen „Hallo Magenta“ vorgestellt. Für diesen Test werden wir uns aber auf die vier Anbieter Alexa, Siri, Google und Cortana konzentrieren.

Während der Suchmaschinengigant Google für seinen Sprachassistenten auf die umfassendste Datenbasis für punktgenaue Antworten zurückgreifen kann, ist Amazon mit einer breiten Echo-Produktreihe (vom kleinen Lautsprecher „Echo-Dot“ bis hin zu Geräten mit Bildschirm und Videofunktion sowie der Verknüpfung seines hauseigenen Streamingdienstes für Musik und Filme) derzeit noch Marktführer.

Apple, einst Pionier auf dem Gebiet der Sprachassistenten, hat mit Siri viel an Boden verloren. Und auch der erste Lautsprecher fürs Wohnzimmer besticht offenbar vor allem durch Feature-Mangel. Das Magazin „t3n“ nannte den Homepod, der erst im Frühjahr in Deutschland erhältlich sein soll, gar den „dümmsten aller Lautsprecher“.

Microsoft wiederum hat seine Cortana standardmäßig in seinem Betriebssystem Windows 10 verbaut. Auf einen smarten Lautsprecher warten deutsche Kunden bis heute aber vergebens. Bislang ist das „Invoke“ genannte Gerät nur vom Hersteller Harman Kardon in den USA erhältlich.

Sprachassistent, hörst Du mich?

Sprachassistenten im Alltagstest Sprachassistenten erobern unseren Alltag. Doch was taugen die smarten Helfer wirklich?
Foto: © Dennis Knake
Damit die Assistenten überhaupt auf uns hören, müssen wir ihre Aufmerksamkeit erregen. Das geht mit einem Stichwort, das je nach Hersteller unterschiedlich ist. Damit es nicht ständig zu Missverständnissen kommt, sollte das Stichwort möglichst selten im Alltagsgebrauch vorkommen.

Google wird mit „Ok, Google“ aktiviert und Cortana hört nach einem „Hey, Cortana“ zu. Apple hört zuverlässig auf den Namen „Siri“. Amazon Echo standardmäßig auf „Alexa“, kann aber individuell je Gerät auf „Echo“ oder „Computer“ umgestellt werden.

Das Problem: Alexa hört in vielen Fällen auch dann zu, wenn die Namen Alexandra, Alexander oder Alex fallen. Kommen diese Namen zu Hause in der Familie vor, sollte man das Stichwort besser auf „Echo“ oder „Computer“ ändern. Letzteres dürfte vor allem Fans der Science-Fiction-Serie „Star Trek“ gefallen. Allerdings kommt das Wort „Computer“ im normalen Sprachgebrauch vermutlich häufiger als „Echo“ vor. So wird man also individuell austesten müssen, was zu Hause am besten funktioniert.

Wie funktioniert die Spracherkennung?

Die Erkennung des Stichwortes wird stets lokal auf dem jeweiligen Endgerät durchgeführt. Dafür ist die Rechenleistung ausreichend. Alles was danach gesprochen wird, sendet der Sprachassistent zur weiteren Verarbeitung in die Cloud, also in die Rechenzentren der jeweiligen Anbieter. Erst hier werden die aufgenommenen Sprachdaten analysiert und eine entsprechende Antwort zurück an das Endgerät geschickt.

Funktionsprinzip Sprachassistenten Funktionsprinzip von Sprachassistenten am Beispiel Amazon Echo Es ist also nicht richtig zu behaupten, Sprachassistenten würden mit ihren offenen Mikrofonen permanent jedes gesprochene Wort auf die Server der Anbieter schicken. Richtig ist aber, dass all das, was nach dem Stichwort gesagt wird, übertragen und permanent beim Anbieter gespeichert wird. Bei Amazon kann man über die Smartphone-App jeden aufgezeichneten Satz zurückverfolgen und dem System mitteilen, ob die Antwort korrekt ausgeführt wurde oder nicht. So lernt das System die individuellen Sprachgewohnheiten des Nutzers besser zu verstehen. Alternativ können die gesprochenen Sätze aber auch gelöscht werden.

Hallo Assistant, wer spricht denn da?

Ein Manko der meisten Sprachassistenten: Sie hören auf jeden und unterscheiden nicht nach der Stimme. Wer sich also nicht einig ist, welche Musik gerade gespielt werden soll, landet schonmal in einem Wortgefecht: „Alexa, spiele Xavier Naidoo!“ – „Bist Du irre? Nein, Alexa, spiele ACDC!“. Der Echo kann die gesprochenen Stimmen nicht unterscheiden und hört immer aufs Wort. Es ist allerdings möglich, mit sogenannten Haushaltsprofilen zwischen verschiedenen Amazon Konten hin und her zu wechseln. Hierzu lassen sich Haushaltsprofile erstellen, die mit weiteren Amazon Konten verknüpft werden. Allerdings wirkt sich der Wechsel dann nur auf die Einstellungen der jeweiligen Personen aus. Der Echo hört weiterhin auf jede Stimme, spielt aber beispielsweise eher die Lieblingsmusik des Teilnehmers ab, dessen Konto gerade aktiv ist oder trägt Termine in den passenden Kalender ein.

Google hingegen studiert die gesprochene Stimme seines Besitzers bei der Installation anhand einiger Sätze ein. Wer aber nun glaubt, fortan höre der Google Assistent nur noch auf diese Stimme, irrt. Bei meinem Test hat auch der vierjährige Sohnemann mit maximal anderer Stimmlage das Gerät ohne Probleme steuern können.

Auch Cortana und Siri bieten Trainingsfunktionen an, um die Stimme des Nutzers besser zu verstehen. Aber das bedeutet das nicht, dass sie dann nur noch auf diesen einen Nutzer hören. Das Training hilft allerdings, auf gewisse sprachliche Eigenheiten des Anwenders besser zu reagieren.

Sprachverständnis und Wissenstest

Bei Alltagsfragen zeigen die Sprachassistenten teilweise deutliche Unterschiede. So etwa die Frage nach den Darstellern eines aktuellen Kinofilms: „Wer sind die Hauptdarsteller von Black Panther“. Dabei wurde nicht erwähnt, dass es sich um einen Kinofilm handelt. Die Frage konnten im Test nur Alexa, Google und Cortana richtig beantworten. Siri versteht nicht einmal das englische Wort „Panther“, sondern nur „Penta“. Die Antwort fällt bei Apple dementsprechend dünn aus: „Interessante Frage“.

Black Panther Filmszene Szene aus Black Panther: Die Fragen nach Filmen und deren Darsteller beantwortet Google am besten. © Marvel Studios
Credit: © Marvel Studios
Verknüpft man bei den anderen Dreien die erste Frage nun mit einer Folgefrage „Wann wurde der Film gedreht“, versagten sie allesamt. Eine logische Verbindung zur Ausgangsfrage konnte keiner der Sprachassistenten mehr herstellen. Auf die deutlichere Formulierung „Wann wurde der Film Black Panther gedreht“ gibt es ebenfalls unterschiedliche Antworten: So reagiert Google mit den nächsten Spielterminen in den Kinos der Umgebung. Schade, Frage nicht verstanden. Alexa spuckt das Premieren-Datum des Films, den 15. Februar 2018, aus. Immerhin ist sie damit etwas näher an der Frage dran. Siri versteht leider wieder nur „Penta“ und antwortet mit „das weiß ich nicht genau“. Cortana spuckt am Windows-Rechner eine Bing-Suche mit der Fragestellung aus. Naja, auch nicht wirklich getroffen.

Screenshot Alexa-App/Wikipedia Bei Wissensfragen bedienen sich die Sprachassistenten gerne bei der Wikipedia. Nicht immer sind die Antworten korrekt.
Screenshot Alexa-App/Wikipedia
Die Frage nach Persönlichkeiten, hier eine der Hauptdarstellerinnen des Films, funktioniert besser: „Wer ist Lupita Nyong‘o“? Alle vier beantworten die Frage richtig, indem sie sich aus den Daten der Wikipedia bedienen; Alexa am ausführlichsten. Aber nur Google kann die Folgefrage „wie alt ist sie“ (und zwar ohne erneutes nennen der Person) richtig beantworten: „Sie ist 35 Jahre alt“. Alexa, Siri und Cortana scheitern. Interessanter Effekt: Bei einem zweiten Versuch mit Alexa und einer leicht abgewandelten Folgefrage „und wie alt ist sie“ (das vorangestellte „und“ soll eine Verbindung zu vorherigen Frage verdeutlichen) antwortet Alexa plötzlich „sie ist 30 Jahre, 8 Monate und 22 Tage alt“. Die Antwort ist zwar penibel genau, aber leider falsch. Lupita Nyong’o wurde am 1. März 1983 geboren und ist somit 35 Jahre alt. Testsieger ist Google und antwortet hier abermals korrekt mit „35 Jahre“.

Spracherkennung für das Smart Home

Im Haushalt können sie perfekt an bereits installierte Smart Home Systeme angebunden werden. Weit fortgeschritten ist hier Amazon Echo. Viele Geräte unterschiedlicher Hersteller wie Philips (Hue), IKEA (Tradfri), tado, innogy (Smart Home) oder netatmo zur Steuerung von Heizung, Licht oder Stromschaltern lassen sich bereits mit Alexa fernsteuern. Erst dann ergeben diese Systeme auch richtig Sinn. Denn müssen Licht oder Heizung erst umständlich per Smartphone-App eingeschaltet werden, ist die Hand wohl schneller am nächsten Schalter. Wer aber schon einmal ein dunkles Schlafzimmer mit den Händen voll frisch gewaschener Wäsche betreten hat, weiß ein „Alexa, Licht einschalten“ wirklich zu schätzen.

IKEA Tradfri Licht und andere Geräte im Haus per Smartphone steuern kann auch mal länger dauern. Per Sprachbefehl wird es erst richtig bequem.
Foto: © IKEA
Auch Google hat bereits ein großes Universum an Geräten am Start, mit denen sich allerhand fernsteuern lässt. Allen voran das hauseigene NEST System mit Thermostaten, Kameras oder Rauchmeldern. Mit Apples Siri lassen sich ebenfalls viele Geräte von Drittherstellen per Sprache steuern. Wichtig ist hierbei darauf zu achten, dass die Geräte Apple HomeKit zertifiziert sind. So hat Philips als Vorreiter in Sachen smarte Beleuchtungen sein „Hue“-System von Anfang an auch mit Apple-Unterstützung versehen. Aber auch Beleuchtungen von Osram (Lightify) oder IKEA (Tradfri) sind größtenteils Homekit kompatibel. Ebenso die Thermostate von tado. Bei Cortana sieht das Angebot hingegen noch etwas mager aus. Zwar sind auch hier Smart Home Systeme zur Sprachsteuerung angedacht, aber bislang gibt es in Deutschland noch nicht mal einen Lautsprecher zu kaufen. In den USA funktioniert dieser aber bereits mit Systemen von Philips (Hue), Nest, Smarthings, Wink und Insteon. Die letzten Drei sind in Deutschland aber eher unbekannt. Partnerschaften hat Microsoft zudem mit Anbietern wie Honeywell oder TP-Link bekannt gegeben.

Nützliche Alltagshelfer: Erinnerungen, Einkaufslisten, Abfallkalender

Sprachassistenten eignen sich auch als nützliche Helfer für den Alltag. So kann man die aktuelle Verkehrslage checken, Einkaufs- und To-Do-Listen führen, sich an Termine erinnern oder zu bestimmten Uhrzeiten wecken lassen. Was auf allen Systemen ziemlich gleich gut funktioniert, ist die automatische Erstellung von Terminen, das Einstellen eines Weckers oder Timer-Funktionen. Doch auch hier gibt es kleine aber feine Unterschiede: So ist es mit Amazon Echo mittlerweile möglich, sich zu einem bestimmten Zeitpunkt mit einem Song oder Radiosender der Wahl wecken zu lassen. So genügt ein „Alexa, wecke mich um sieben Uhr mit Radio 1Live“ und Alexa spielt zum angegebenen Zeitpunkt die Radiostation über den Streamingdienst TuneIn ab. Auch Google kann Radiosender via TuneIn abspielen, versteht aber die Verknüpfung mit dem Wecker nicht.

Listen mit Alexa Zum Verwalten von Erinnerungen oder To-Do-Listen sind Sprachassistenten gut geeignet.
Foto: © Dennis Knake
Alexa fragt bei Zeitangaben oft penibel genau nach. Bei „Wecke mich Morgen um sechs Uhr“ erfolgt die Rückfrage, ob vormittags oder nachmittags gemeint sei. Nicht so bei Google, Siri oder Cortana: Die Assistenten nehmen es wörtlich und tragen bei „sechs Uhr“ die Morgenstunde ein. Wer sich abends wecken lassen will, muss schon 18 Uhr sagen.

Hat man es sich anders überlegt und möchte den Wecker wieder löschen, genügt bei Alexa, Google und Siri ein allgemeines „Wecker löschen“. Nur Cortana versteht das nicht und zeigt Suchergebnisse zum Thema „Wecker löschen“ an. Aua. Auch das Führen von Einkaufslisten ist mit den Sprachassistenten eine hilfreiche Sache. Wühlt man gerade in der Küche und sucht vergeblich die Milch, so genügt ein „Alexa, füge Milch meiner Einkaufsliste hinzu. Die Liste lässt sich dann im Supermarkt über die Alexa-App abrufen. Das ist besonders dann praktisch, wenn sich alle in der Familie beteiligen.

Google beherrscht die Einkaufslisten ebenfalls und zeigt die Einträge über die Google Home App oder shoppinglist.google.com an. Apples Siri fragt bei der ersten Nutzung nach, ob es eine entsprechende Einkaufsliste erstellen soll und führt diese in der „Erinnerungen-App“.

Suche nach Restaurants und Öffnungszeiten

Die Restaurantsuche gestaltet sich mit den smarten Lautsprechern recht einfach. Allerdings kommt es sehr auf die Art der Fragestellung an, um auch die richtigen Antworten zu bekommen. Google hat hier das beste Sprachverständnis bewiesen. Auf die Frage „Wo kann ich hier italienisch essen gehen“ antwortete der Assistent völlig korrekt mit dem nächsten italienischen Restaurant in der Gegend und lieferte auch gleich die Sterne-Bewertung aus der Suchmaschine mit. Restaurantsuche Cortana Bei der Suche nach Restaurants kommt es auf die Art der Fragestellung an. Dann liefern alle vier Systeme akzeptable Antworten.
Screenshot: Cortana / Windows 10
Alexa versagte bei dieser Art der Fragestellung völlig. „Hier sind einige nahegelegene Betriebe mit Top-Bewertungen: Hans Esser, Cornelia Esser, Christian Esser, Ess Elektroinstallations GmbH“. Offenbar hat der Assistent die Frage völlig falsch verstanden.

Auch Cortana, an einem Windows 10 Rechner getestet, kommt mit der Art der Frage nicht klar und liefert Bing-Suchergebnisse mit den Stichworten „italienisch essen gehen“. Leider kein Treffer. Besser läuft es mit einer anderen Formulierung: „Gibt es ein italienisches Restaurant in der Nähe?“ Dann zählt auch Alexa brav die nächsten drei italienischen Restaurants der Straße auf und liefert die Kontaktdaten und Öffnungszeiten über die Alexa-App aufs Smartphone.

Siri, die ich nur auf dem iPhone testen kann, liefert eine passende Liste mit Restaurants und Bewertungen von Yelp und Tripadvisor. Auch Cortana trifft diesmal ins Schwarze und zeigt mehrere Restaurants in der Nähe samt Kartenübersicht an.

Auf die Frage nach den Öffnungszeiten eines der zuvor genannten Restaurants antwortet Google wieder am besten. Alexa nennt die Öffnungszeiten eines ganz anderen Lokals viele Straßen weiter. Dabei half auch die Nennung des Namens des Restaurants nicht. Schade.

Zusatzfunktionen über „Skills“ von Drittanbietern

Um eine möglichst große Vielfalt an Funktionen zu bieten, hat Amazon seiner Alexa von Anfang an eine Programmierschnittstelle zur Verfügung gestellt, mit dessen Hilfe sich sogenannte „Skills“ entwickeln lassen. Skills sind sprachgesteuerte Zusatzprogramme, die Sprachassistenten um Funktionen erweitern, die sie von Haus aus nicht beherrschen. Bei Amazon sind mittlerweile hunderte solcher Skills verfügbar. Viel Schrott oder Spaßprogramme, aber auch einige echte Perlen. Die einzelnen Skills müssen über die Alexa-App aktiviert werden.

Alexa Skills Amazon hat einen riesigen Pool kostenloser Skills im Angebot, die die Fähigkeiten von Alexa erweitern.
Screenshot: Alexa Skills
Besonders praktisch im häuslichen Alltag ist beispielsweise der Skill „Abfallkalender“. So lassen sich über die Webseite des Anbieters die Abfuhrtermine lokaler Reinigungsunternehmen eintragen. Oft bieten diese auf ihren Webseiten Jahreskalender in Tabellenform zum Download an. Diese Tabelle kann in den Abfallkalender importiert und sogar nach Müllart unterschieden werden. Einmal installiert, beantwortet Alexa künftig die Frage nach den nächsten Abfuhrterminen für Papiermüll oder die Gelbe Tonne recht zuverlässig.

Das Problem mit den Alexa-Skills ist jedoch, dass diese oft mit einem festgelegten Satz gestartet werden müssen, sonst funktionieren sie nicht. Meist nach dem Muster „Alexa, Frage [Name des Skills] nach …“. Dies führt in einigen Fällen zu sehr unnatürlichen Satzkonstrukten. Da man sich als Nutzer solche Sätze auf Dauer nur schwer merken kann, wird es bei mehreren installierten Skills schnell unübersichtlich.

Filme per Sprache steuern

Bei Google heißen die Skills „Actions“. Auch das sind Zusatzprogramme von Drittanbietern. Diese müssen aber nicht erst in der App aktiviert, sondern können per Sprachbefehl gestartet werden. Um beispielsweise einen Film auf Netflix zu schauen, genügt ein „Ok Google, spiele Star Trek Discovery auf Netflix“. Hat man nun einen Google Chromecast angeschlossen, so wird der Fernseher eingeschaltet und der entsprechende Film über den eigenen Netflix Account abgespielt. Mit diesem Feature hat Amazon die Kunden lange warten lassen. Doch seit Anfang März können die Echo-Lautsprecher endlich auch Filme starten, wenn ein entsprechender FireTV-Adapter am Fernseher angeschlossen ist. Das ging bislang nur mit der Mikrofontaste für die Spracherkennung auf der FireTV-Fernbedienung.

Auch Microsoft bietet mit dem Cortana Skill Kit Entwicklungsmöglichkeiten für Zusatzfunktionen an. In Deutschland ist das auch in Ermangelung eines Cortana Lautsprechers noch längst nicht so weit fortgeschritten wie bei den Wettbewerbern. Apple hat sich ebenfalls von Amazon den Rang ablaufen lassen. Zwar gibt es das SiriKit, um Drittanbieter-Apps per Sprache zu steuern, aber bereits zum Launch vor zwei Jahren bekam es von der Fachpresse schon schlechte Noten im Hinblick auf Entwicklungsmöglichkeiten und Attraktivität.

Fazit

Bei den Sprachassistenten gibt es teilweise immer noch deutliche Unterschiede. In Deutschland am weitesten entwickelt sind Amazon und Google. Apple und Microsoft haben hier unbedingten Nachholbedarf. Google zeigt sich flexibler, was unterschiedliche Arten der Fragestellung angeht. Das hat aber zur Folge, dass manche Fragen unter Umständen falsch interpretiert werden. So etwa die Anfangs beschriebene Frage nach dem Produktionsjahr des Kinofilms „Black Panther“, bei der Google fälschlicherweise die Spieltermine der nächsten Kinos ausgab. Bei Amazon führt eine genauer definierte Fragestellung zum Ziel.

Erst wenn sich der Mensch nicht mehr an die Formulierungswünsche der Technik anpassen muss, sondern die Technik noch exakter die Formulierungen des Menschen lernt, wird der Umgang mit Sprachassistenten natürlicher. Noch ist es manchmal etwas holprig, zum gewünschten Ergebnis zu kommen. Erst wenn die Assistenten lernen, aus individuellen Fragen intelligente Schlussfolgerungen zu ziehen, wird es spannend. Noch aber stößt die Technik spürbar schnell an ihre Grenzen.

Das Ende der Fahnenstange ist bei den Sprachassistenten aber sicherlich noch lange nicht erreicht. Fragt sich nur, welche Anbieter den Wettlauf am Ende überstehen. Wird sich Samsung mit Bixby noch signifikante Marktanteile sichern können oder doch eine Insellösung bleiben? Hat die Telekom auch noch eine Chance? Die Big-Player sind derzeit zweifelsohne Amazon und Google.

Mehr zum Thema Spracherkennung