Überblick

Wie weit ist die Sprachsteuerung bei Windows 10 & Co.?

Nahezu auf jedem Betriebssystem gibt es einen Sprachassistenten, mit dem Nutzer mehr oder weniger ihren Alltag organisieren können. Ein Überblick.
Von dpa / Daniel Rottinger

Nutzer können bestimmte Funktionen ohne Tastatur und Maus verwenden Nutzer können bestimmte Funktionen ohne Tastatur und Maus verwenden
Bild: dpa
Cortana statt Siri: Spätestens seit Windows 10 liest auch der PC seinem Nutzer jeden Wunsch von den Lippen ab. Unter Umständen kann eine Sprachsteuerung Maus und Tastatur sogar komplett ersetzen. Das braucht allerdings etwas Gewöhnungszeit - für Mensch und Maschine.

"Richte mir bitte einen Termin ein". Oder: "Erinnere mich daran, heute Abend Oma anzurufen". Und: "Brauche ich morgen einen Regenschirm?" Solche Fragen und Befehle kann man nicht nur an sein Smartphone richten. Auch Windows hat seit Version 10 die Sprachassistentin und Alltagshelferin Cortana an Bord - benannt nach einer Künstlichen Intelligenz aus Microsofts Spieleserie "Halo". Da steuert Cortana sogar Raumschiffe. Auf Windows 10 ist sie nicht ganz so mächtig. Ihr Funktions­umfang entspricht eher dem der Apple-Konkurrentin: Im Grunde ist Cortana ein Assistent wie Siri.

Mac OS bietet noch keine Sprachsuche

Nutzer können bestimmte Funktionen ohne Tastatur und Maus verwenden Nutzer können bestimmte Funktionen ohne Tastatur und Maus verwenden
Bild: dpa
Wer an seinem Windows-10-PC konsequent auf das Microsoft-Ökosystem setzt, also etwa E-Mails und Termine in den mitgelieferten Apps verwaltet, kann Cortana tatsächlich viele Alltagsaufgaben überlassen. Am Mac geht das noch nicht. Gut möglich allerdings, dass Siri demnächst den Sprung von mobilen Geräten auf den Computer schafft. Selbst für Linux gibt es mit Sirius einen Open-Source-Assistenten, der aber in Sachen Funktions­umfang noch ganz am Anfang steht.

Die Arbeit am PC beschleunigen die Assistenten aber nicht unbedingt. "Sprachsteuerung ist dann besonders attraktiv, wenn Augen und Hände beschäftigt sind, also zum Beispiel im Auto oder am Handy", sagt Alexander Waibel, Professor für Informatik am Karlsruhe Institute of Technology (KIT). "Am klassischen PC ist der Nutzen solcher Systeme eingeschränkt, die Leute sitzen ja in der Regel direkt davor."

Amazon Echo für Alltagsaufgaben

Interessanter werden solche Assistenten erst, wenn das nicht mehr der Fall ist, sagt der Informatiker - etwa wenn der PC zur Steuerzentrale für die ganze Wohnung wird und dann auf Kommando nach der Lieblingsserie sucht. "Mit Lösungen wie Amazon Echo gibt es das ja jetzt schon", sagt Waibel. "Gut möglich, dass sich die Definition des PC in den kommenden Jahren generell in diese Richtung verschiebt".

Bis es so weit ist, gibt es aber noch einige Hürden zu überwinden. Vielleicht die größte davon ist eine Art Sprachbarriere zwischen Assistenten und Nutzer. "Eindeutige und einfach zu interpretierende Befehle zu geben, ist für Menschen fast unmöglich", sagt Waibel. "Selbst einfachste Kommandos sind sprachlich sehr komplex."

Sprachassistenten lernen dazu

Zur Lösung dieses Problems setzen Assistenten wie Siri und Cortana auf Lernalgorithmen: Jeder Befehl aller Nutzer der ganzen Welt landet im Speicher der Systeme. Mit der Zeit entsteht so eine Datenbank aus Erfahrungswerten, aus denen die Programme lernen können. "Je mehr wir solche Assistenten nutzen, desto besser werden sie", erklärt Waibel.

Doch am PC gibt es noch andere Möglichkeiten der Sprachsteuerung. Wer will, kann seinem Computer etwa schon seit Jahren Texte diktieren. Diese Funktion ist bei aktuelleren Versionen von Windows und OS X integriert, alternativ gibt es Programme wie Dragon Naturally Speaking oder Voice Pro. Die kosten zwar, können aber auch mehr.

Diktieren erfordert etwas Übung

Ob das Diktieren besser klappt als klassisches Tippen, ist Geschmacks- und Übungssache. "Klar und eindeutig zu diktieren, ohne sich zu versprechen, ist gar nicht so einfach", warnt Waibel. Tippen sei dagegen schneller, fehlerfreier und geräuscharmer - wichtig fürs Großraumbüro. "Beim Tippen können Sie außerdem ins Unreine schreiben und später editieren, das geht beim Diktieren nicht so leicht."

Einige sind aber auch auf solche Systeme angewiesen. "Spracherkennung ist für alle Menschen mit irgendeiner Form der motorischen Einschränkung enorm wichtig", sagt Christian Hille vom Berliner Verein Zugangswerk, der barrierefreie Technologien fördert. "Menschen mit Sehbehinderung benutzen die Systeme aber zum Beispiel auch, einfach weil sie damit deutlich schneller schreiben können".

Per Sprache Texte formatieren und Tabellen bauen

Gute Spracherkennungssoftware steuert zudem alles vom Browser bis zur Systemsteuerung. "Wer damit umgehen kann, formatiert damit sogar Texte oder baut Tabellen", so Hille. Möglich machten dies Bordmittel der Betriebssysteme ebenso wie Kaufprogramme. Letztere lieferten aber deutlich bessere Ergebnisse: "Die sind einfach anpassungsfähiger und bieten gerade für erfahrene Nutzer viel mehr Möglichkeiten."

Die Programme brauchen aber Gewöhnungszeit: Sie funktionieren erst richtig gut, wenn sie die Stimme ihres Besitzers kennen, sagt Jo Bager. Auch der Ton zählt: "Mit einem einfachen Mikrofon im Notebook klappt das nicht so gut, mit einem Headset aber deutlich besser".

In einer weiteren Meldung sind wir auf das kommende Voice-Wearable der Telekom namens Dial eingegangen.

Mehr zum Thema Spracherkennung