Die eigene Stimme als Passwort? Besser nicht ...

Apples Siri und ein Cloud-Service von Microsoft sind auf eine Computerstimme hereingefallen. Andere Stimmerkennungen dürften ebenfalls anfällig sein.

In Pocket speichern vorlesen Druckansicht 61 Kommentare lesen
Die eigene Stimme als Passwort? Besser nicht

Die US-Bank Schwab meint, die Stimme sei so einzigartig wie ein Fingerabdruck.

(Bild: schwab.com)

Lesezeit: 3 Min.
Von
  • Uli Ries

Die Sicherheitsforscher John Seymour und Azeem Aqil haben auf der Hackerkonferenz Def Con demonstriert, wie sie mit Machine Learning komplett synthetisch erzeugte Stimmen so nah an den Klang menschlicher Sprecher brachten, dass Stimmerkennungsverfahren keinen Verdacht schöpften. Sowohl Apples Siri als auch Microsofts Cloud-Angebot Azure Speaker Recognition glaubten, in den synthetisch erzeugten Stimmproben die Stimme eines der Forscher erkannt zu haben.

Problematisch ist dies, wenn eine Stimme als Passwortersatz dienen soll, wie es beispielsweise die US-Bank Schwab anbietet. Auch Microsoft positioniert den Azure-Dienst als Mittel zur Authentifizierung. Apple spricht zwar derzeit nicht über Authentifizierung, will aber genau wie Google verschiedene Sprecher unterscheiden können.

Basis des Angriffs ist das Verfahren Text to Speech (TTS), das beliebige Texteingaben in möglichst natürlich klingende Sprachausgabe verwandelt. Seymour und Aqil, die für Salesforce forschen, nutzten für ihr Projekt Googles TTS-Dienst Tacotron 2. Er sei nutzerfreundlicher als andere Dienste.

Damit TTS beliebige Texte mit der Stimme eines bestimmten Menschen ausgeben kann, müssen große Mengen an Sprachaufzeichnungen des Betreffenden vorliegen. Ideal sind 24 Stunden in möglichst hoher Audioqualität, also ohne Nebengeräusche und Füllsel wie "Äh". Für einen Angreifer dürfte es kaum möglich sein, an Aufzeichnungen von ihren potenziellen Opfern in diesem Umfang zu gelangen. Selbst bei Prominenten dürften sich solche Mengen nur schwer aus Youtube-Videos extrahieren lassen. Dazu kommt, dass die Aufzeichnungen aufwändig von Hand transkribiert werden müssen, damit das neuronale Netz die gesprochenen Wörter zuordnen kann.

Daher erdachten die Hacker einen anderen Weg, der mit nur gut zehn Minuten an Sprechproben auskommt, die per ffmpeg in zehn Sekunden lange Fetzen zerschnitten wurden: Im ersten Schritt trainierten die Hacker das neuronale Netz mit den riesigen Open-Source-Sprachdatenbanken Blizzard und LJ Speech, bis das Modell gut genug war. Anschließend ersetzten sie den Datensatz durch die künstlich um das 30-fache verlängerten Sprechproben des potenziellen Opfers. Verlängert wurden die Proben, indem die Sprachfetzen mit Hilfe der Bibliothek pydub verlangsamt oder beschleunigt wurden. Apples Siri beispielsweise akzeptierte Tempi zwischen 0,88 und 1,22. Damit werden aus 10 Minuten 300 Minuten Material, mit dem die Forscher das Training des Netzes dann abschlossen.

Das Ergebnis klingt auch für menschlich Ohren tatsächlich wie die aufgezeichnete Probe des menschlichen Sprechers. Für die Systeme von Apple und Microsoft ohnehin – sie können die Computerstimme nicht vom Menschen unterscheiden. (anw)