Deepfakes: Audio- und Videomanipulation erkennen

Stimmen täuschend echt nachahmen? Gesichter in Videos austauschen, ohne dass es jemandem auffällt? Bis vor wenigen Jahren war der Aufwand dafür enorm. Das hat sich grundlegend geändert - eine Gefahr.

Von dpa / Alexander Kuch

Echte Queen, Spielfilm oder Deepfake - nicht immer leicht herauszufinden. Echte Queen, Spielfilm oder Deepfake? Nicht immer leicht herauszufinden.
picture alliance/dpa/PA Media Es ist vertrackt: Vor allem bewegten Bildern und Stimmen vertrauen wir Menschen intuitiv. Doch seitdem es möglich ist, selbst dynamische Medien wie Videos und Audiomitschnitte mit vergleichsweise wenig Aufwand und Expertise in hoher Qualität zu fälschen, heißt es umdenken.

Die täuschend echten Fälschungen werden mit Hilfe künstlicher Intelligenz (KI) erstellt und lassen sich bei normalem Hinsehen oder Hören kaum noch von echten Videos oder Stimmaufnahmen unterscheiden, warnt das Bundesamt für Sicherheit in der Informationstechnik (BSI), das die Technologie, Verfahren, Gefahren und Gegenmaßnahmen auf einer neuen Themenseite erklärt.

Geboren aus neuronalen Netzen

Echte Queen, Spielfilm oder Deepfake - nicht immer leicht herauszufinden. Echte Queen, Spielfilm oder Deepfake? Nicht immer leicht herauszufinden.
picture alliance/dpa/PA Media Die Fälschungen werden auch als Deepfakes bezeichnet, weil die Verfahren zu ihrer Erstellung auf tiefen neuronalen Netzen (deep neural networks) basieren.

Und wie schafft man es, Deepfakes nicht auf den Leim zu gehen? Schon allein das Wissen um ihre Existenz und die Möglichkeiten von KI hilft dabei, nicht mehr per se auf die Echtheit jeglicher Videos oder Audio-Aufzeichnungen zu vertrauen. Stattdessen gilt es, immer auch Aussagen und Plausibilität kritisch zu hinterfragen.

Handwerklich nicht immer perfekt

Aber auch technisch kann es durchaus Hinweise geben, die Fälschungen entlarven können. Dazu zählen dem BSI zufolge etwa Artefakte bei Gesichtsübergängen, verwaschene Konturen, begrenzte Mimik oder unstimmige Belichtung bei Videos. Metallischer oder monotoner Klang, falsche Aussprache oder unnatürliche Sprechweise sowie unnatürliche Geräusche oder Verzögerungen sind typische Fehler bei Stimmfälschungen.

Künftig könnte es aber auch kryptographische Verfahren geben, die die Quelle von Video- oder Audio-Material eindeutig mit einer Identität verknüpfen, gibt das BSI einen Ausblick darauf, wie zukünftig Deepfakes verhindert werden könnten. Dazu zählten auch zahlreiche Methoden zur automatisierten Erkennung manipulierter Daten, an denen Wissenschaftlerinnen und Wissenschaftler arbeiten.

Geboren aus neuro­nalen Netzen

Hand­werk­lich nicht immer perfekt

Mehr zum Thema Musik

Geboren aus neuronalen Netzen

Handwerklich nicht immer perfekt