12. Oktober 2023 Audio-Deepfakes und Voice-Cloning: So schützen Sie sich vor Betrug

Mittels künstlicher Intelligenz lassen sich Stimmen realer Menschen täuschend echt imitieren. Die Technologie des Voice-Cloning bringt allerlei Nutzen, kann aber auch für kriminelle Machenschaften und Desinformation missbraucht werden.

Studiomikrofon vor Akustikschaum — Audio-Deepfake. Foto: Adobe Stock

Die Zeiten, in denen sich maschinell wiedergegebene Texte unverkennbar künstlich anhörten, sind vorbei. Durch den Einsatz von künstlicher Intelligenz (KI) klingen mittlerweile auch Inhalte, die von einem Computer gesprochen werden, vollkommen menschlich. Doch damit nicht genug: Es ist heute sogar möglich, eine KI exakt wie real existierende Personen sprechen zu lassen. Um ein solches Audio-Deepfake zu erstellen, analysiert die KI anhand eines Datensatzes eine bestimmte menschliche Stimme und ist dadurch in der Lage, beliebige Inhalte mit derselben Stimme wiederzugeben. Darum wird dieses Verfahren auch als „Voice-Cloning“ bezeichnet.

Die Vorteile der Technologie sind vielfältig: Sie kann genutzt werden, um Menschen, die aufgrund einer Krankheit oder eines Unfalls nicht mehr sprechen können, ihre Stimme zurückzugeben, oder um kostengünstig Hörbücher zu produzieren. Darüber hinaus dienen Sprach-Deepfakes einfach der Unterhaltung: Zahlreiche Apps erlauben es, berühmte Personen oder auch jemanden aus dem eigenen Bekanntenkreis beliebige Sätze „sprechen“ zu lassen.

Hinweis

Das menschliche Stimmprofil ist ein eindeutiges biometrisches Merkmal. Die individuelle Stimme einer Person kann daher auch zur Authentifizierung genutzt werden.

Voice-Cloning birgt jedoch auch Risiken. Neben der Verbreitung von Falschnachrichten (Fake News) besteht eine wesentliche Gefahr darin, dass Cyberkriminelle mithilfe von Audio-Deepfakes persönliche Daten oder Geldbeträge von arglosen Bürgerinnen und Bürgern erbeuten. Wie die Betrügerinnen und Betrüger dabei vorgehen und wie Sie sich schützen können, verrät dieser Beitrag.

Wie funktionieren Sprach-Deepfakes?

Bei der Herstellung von Audio-Deepfakes lassen sich zwei Methoden unterscheiden:

Replay-basierte Sprach-Deepfakes: Bei dieser Methode wird eine menschliche Stimme heimlich aufgezeichnet, etwa indem Kriminelle ihr Opfer telefonisch kontaktieren und ihm die gewünschten Aussagen entlocken. Zusammenschnitte der Tonaufnahmen können später für sogenannte Phishing-Angriffe verwendet werden. Derartige Attacken unter Vortäuschung einer fremden Identität (eine Form des Social Engineering) richten sich häufig gegen Vertreterinnen und Vertreter von Unternehmen (CEO-Fraud, Whale-Phishing), um von diesen sensible Daten zu erhalten oder etwa eine Zahlungsfreigabe zu erwirken.
Synthetische Sprach-Deepfakes: Programme, die mithilfe von KI synthetische Sprachdateien erstellen, sind für Nutzerinnen und Nutzer oft einfach zu bedienen. In einem ersten Schritt muss die KI mit Sprachaufnahmen der Zielstimme „gefüttert“ werden. Die KI reduziert die eingegebenen Audiodaten auf grundlegende Muster, auf deren Basis sie später selbst Audios erstellen kann, sodass es wirkt, als würde die reale Person sprechen. Je länger die Audioaufnahmen der menschlichen Zielstimme sind, mit denen die KI „trainiert“ wird, desto authentischer klingt die synthetische Stimme. Nun muss man der KI nur noch die Worte liefern, die sie sprechen soll. Dies erfolgt ganz einfach per Texteingabe („Text-to-Speech“-Funktion) oder durch Aufnahme der eigenen Stimme („Voice Conversion“).

Tipp

Generell sollten Sie, wenn Sie von Unbekannten angerufen werden (etwa unter dem Vorwand einer Umfrage), sehr sparsam mit Ihren Aussagen sein, da diese aus dem Zusammenhang gerissen und gegen Sie verwendet werden können.

Welche Gefahren gehen von Audio-Deepfakes aus?

Die Bandbreite an zweifelhaften Anwendungen reicht von der Verbreitung von Fake News bis hin zum gewerbsmäßigen Betrug. So gehen Kriminelle vor, um die öffentliche Meinung zu manipulieren oder an sensible Daten und Geld zu gelangen:

Fake News:
Tonaufnahmen, die Politikerinnen und Politiker beziehungsweise große Unternehmen in ein schlechtes Licht rücken, oder sogar Kriegserklärungen von Staats- und Regierungschefs lassen sich mittels KI täuschend echt simulieren. Audio-Deepfakes können also eingesetzt werden, um gezielt die öffentliche Meinung zu beeinflussen. Dass man nicht alles glauben soll, was online zu lesen oder zu sehen ist, war schon früher bekannt. Dieselbe Vorsicht sollten Sie auch in Bezug auf Audio-Content im Internet walten lassen.
Betrug:
Cyberkriminelle nutzen Audio-Deepfakes, um am Telefon Geld von arglosen, meist älteren Menschen zu erbeuten. Eine Masche, die sehr häufig zum Einsatz kommt, ist der sogenannte „Enkeltrick“: Dabei geben sich die Betrügerinnen und Betrüger als Angehörige des Opfers aus und bitten um Geld. Oft genügen schon wenige aus sozialen Medien kopierte Audioaufnahmen, um die Stimme einer Person realistisch genug nachzuahmen. Social Media wird von den Kriminellen außerdem genutzt, um die Identität des Opfers beziehungsweise der Angehörigen zu recherchieren.

Hinweis

Wer dem Missbrauch der eigenen Stimme durch Dritte vorbeugen möchte, sollte auf die Veröffentlichung von Ton- und Videoaufnahmen im Internet verzichten. Nützliche Hinweise, wie man in sozialen Medien für mehr Privatsphäre sorgt, bietet dieser Beitrag.

Deepfakes: So schützen Sie sich vor Täuschung und Betrug

Während es beispielsweise gegen Malware effektive Antivirenprogramme gibt, existieren im Bereich der Deepfakes – ob Bild, Video oder Audio – derzeit kaum technische Möglichkeiten, sich vor Manipulation oder Betrug zu schützen. Daher ist ein gesundes Maß an Skepsis besonders wichtig. Auf die folgenden Warnsignale sollten Sie achten, um verdächtige Telefonanrufe zu erkennen:

Fordert das Gegenüber dringend Geld oder sensible Informationen, etwa Bank- oder Kreditkartendaten? Wird dabei versucht, Zeitdruck aufzubauen?
Erscheint der Sprechstil unüblich oder zu „perfekt“? Menschen machen beim Sprechen immer wieder Pausen oder variieren das Tempo. Die eingesetzte KI hat oft noch Schwierigkeiten, diese Eigenschaften authentisch nachzuahmen.
Passen die Erwiderungen des Gegenübers nur eingeschränkt zu Ihren Fragen? Das liegt möglicherweise daran, dass sich die Cyberkriminellen vorgefertigter Audiodateien bedienen.

Häufig rufen die Betrügerinnen und Betrüger von gefälschten Telefonnummern an, um ihre Identität zu verschleiern (sogenannte Spoofing-Anrufe). Wenn Ihnen ein Gespräch verdächtig vorkommt, beenden Sie das Telefonat und rufen Sie zurück. Hebt nun jemand anderes ab, hat es sich um einen Spoofing-Anruf gehandelt.

Hinweis

Wenn Kriminelle im Internet unter Vorspiegelung falscher Tatsachen versuchen, an sensible Daten zu gelangen, spricht man von „Phishing“. Wie sich derartige Attacken erkennen lassen, wird im Beitrag „Phishing“ erklärt.

Letzte Aktualisierung: 12. Oktober 2023

Für den Inhalt verantwortlich: A-SIT Zentrum für sichere Informationstechnologie – Austria