Von Ostereiern und Mut für Sprachsteuerung
„Hallo Magenta“, der Sprachassistent der Telekom, ist der erste europäische Smart Speaker. Damit lassen sich per Stimme Anrufe tätigen, MagentaTV und SmartHome-Geräte bedienen - und das besonders datensicher. Dr. Andrea Schnall hat ihn mitentwickelt. Hier schildert die Telekom-Mitarbeiterin, wie sie das erlebt hat.
Sie sind noch recht neu bei der Telekom. Sie haben Elektrotechnik an der TU Darmstadt studiert und über Machine Learning, also Maschinelles Lernen im Audiobereich, promoviert. Was haben Sie da gemacht?
Dr. Andrea Schnall: Konkret ging es darum, Betonungen in Sprachen zu untersuchen. Ich habe einen Algorithmus dafür trainiert, in einem englischen und einen japanischen Datensatz zu erkennen, welche Wörter betont werden. Das kann helfen, automatische Spracherkennung zu verbessern, da Menschen zum Beispiel Wörter anders betonen, wenn sie zuvor missverstanden wurden und sich wiederholen. Sie gehen dann zum Beispiel mit der Stimme hoch, werden lauter oder dehnen das Wort.
Dann ging es bei der Telekom 2017 gleich weiter für Sie mit Sprache …
Schnall: Richtig, ich habe mich sehr gefreut, als mich das damals noch kleine Smart-Speaker-Team an Bord holte.
Wie sind Sie denn auf die Telekom gekommen?
Schnall: Als ich studierte, war Machine Learning irgendwann mein Steckenpferd. Es gab da noch keine eigenen Studiengänge dafür wie heute und Stellenausschreibungen gab es eher im Bereich Datenanalyse. Umso mehr freute ich mich, als ich eine Stellenanzeige der Telekom sah, die genau das suchte. Ich fand dann ein Team netter Kolleg*innen mit ansteckender Begeisterung vor. Damals noch 35-köpfig … heute zählt es über 200 Mitglieder. Wir mussten unsere Rolle im Projekt noch finden und festlegen, was eigentlich an Machine Learning nötig war, um so ein Gerät zu bauen, das relevante Sprachbefehle richtig ausführt. Jeder hat alles gemacht, was anstand. Wir begannen sehr früh, am Grunddatensatz zu arbeiten und Beispiele für Intents und Entities zu definieren. Das war auch meine erste Aufgabe.
Das ist für viele schwer vorstellbar. Wie würden Sie das einfach erklären?
Schnall: Ein Intent ist eine Absicht, also etwa „TV-Sender umschalten“. Entities sind die näheren Nutzerinformationen. Also nicht nur umschalten, sondern auf ein spezielles Programm eben. Dies muss der Algorithmus erkennen. Wir sind da beim Thema Erkennung natürlicher Sprache, also „Natural Language Understanding“, im Gegensatz zu vordefinierten Sprachbefehlen. Der Speaker verwandelt die Sprache in Text, löst dann die gewünschte Aktion aus. Wir geben die Intents vor, also zum Beispiel Wetter oder TV-Programm. Wenn wir die Künstliche Intelligenz trainieren, verwenden wir einen Datensatz mit Lösungen und ordnen diese den Intents zu. Das Modell lernt dann diese Zusammenhänge. Erst haben wir Beispiellösungen selbst reingebracht, später kamen Aufnahmen von Beta-Testern hinzu. Je unterschiedlicher, desto besser. Schließlich gilt es zu lernen, dass hinter „Kannst Du das Wetter vorhersagen“, „Wie wird das Wetter heute“, oder „Brauche ich einen Regenschirm“ dieselbe Absicht steht. Die Algorithmen lernen zu generalisieren sowie Ähnlichkeiten und Abhängigkeiten zu erkennen, um das Gesagte dann den Intents zuzuordnen. Und auch möglichst viele Wahrscheinlichkeiten, also wohin das Gesagte passen könnte. Aber natürlich gibt es in so einem Projekt noch viel mehr Anwendungen für Maschinelles Lernen.
Wie war es für Sie, als die Telekom den Speaker 2019 auf den Markt brachte?
Schnall: Einfach mega-spannend. Endlich war es so weit. Wir waren auf der IFA in Berlin mit dabei. Ich finde es einfach großartig, dass ein europäisches Unternehmen wie die Telekom den Großen in Ost und West mit einem eigenen Gerät die Stirn bietet. Das hatte mich von Beginn an begeistert. Und es ist ja erst der Anfang. Sprachsteuerung wird in unser aller Alltag einziehen, noch komplexere Befehle werden möglich, alles wird intuitiver werden. In allen Branchen. Nehmen Sie etwa Automotive. Oder die Medizin, wo es wichtig ist, die Hände frei zu haben und hygienisch sauber zu arbeiten. Für uns bei der Telekom sollte weiter klar sein: Es geht gerade richtig los. Natürlich muss man immer abwägen: Was kaufen wir ein, was machen wir selbst. Doch in puncto Machine Learning können wir mit wenigen Leuten viel erreichen. Da geht mehr als viele denken. Wir sollten noch mutiger sein mit unseren deutschen beziehungsweise europäischen Lösungen.
Was schätzen Sie besonders an Ihrer Arbeit?
Schnall: Ich liebe es, über Lösungen für technische Probleme zu diskutieren, und da habe ich gute Gesprächspartner im Team. Und wir haben viel Spaß, viele gute Momente. Irgendwann haben wir ein Easter Egg in den Speaker eingebaut …
Wie bitte?
Schnall: „Easter Eggs“ oder „Ostereier“ sind Gags, die Entwickler in ihrer Software verstecken. Das hatten wir auch, als der Speaker noch nicht gelauncht war. Auf einen bestimmten Befehl fing er an zu leuchten und Musik abzuspielen.
Frau Dr. Schnall, vielen Dank für das Interview.
Wie funktioniert Sprachsteuerung? – Netzgeschichten