War es wirklich ein Deep Fake? Falscher Klitschko – "Billiger Trick" könnte Politiker getäuscht haben
Franziska Giffey hat am Freitag ein Gespräch mit einem falschen Vitali Klitschko geführt. Dahinter könnte modernste Computertechnik stecken – oder etwas viel einfacheres.
Am vergangenen Freitag führte Berlins Regierende Bürgermeisterin Franziska Giffey per Videoschalte ein Gespräch mit einem falschen Vitali Klitschko. Man habe im Verlauf des Gesprächs Zweifel bekommen, ob es sich tatsächlich um Kiews Bürgermeister handle. Das Gespräch endete schließlich vorzeitig, später bestätigten sowohl Botschafter Andrij Melnyk als auch Vitali Klitschko selbst, dass er nicht mit Giffey gesprochen habe.
Doch wie konnte das sein? Laut Senatskanzlei habe der falsche Vitali Klitschko im Video-Gespräch über die Software WebEx echt gewirkt, es habe "keine Anhaltspunkte" dafür gegeben, dass die Videokonferenz nicht mit einer echten Person geführt werde.
Wir benötigen Ihre Einwilligung, um den von unserer Redaktion eingebundenen X-Inhalt anzuzeigen. Sie können diesen (und damit auch alle weiteren X-Inhalte auf t-online.de) mit einem Klick anzeigen lassen und auch wieder deaktivieren.
Schlussfolgerung in der Senatskanzlei: Es habe sich um einen sogenannten Deep Fake gehandelt. Als Deep Fake bezeichnet man im Allgemeinen ein Video, in dem fortschrittliche Algorithmen mithilfe von Künstlicher Intelligenz etwa ein Gesicht nach Belieben anders bewegen. Ein entsprechend trainiertes System kann dann etwa ein bestimmtes Gesicht auf eine Person in einem anderen Video übertragen.
Ein bekanntes Beispiel ist etwa der Deep Fake, bei dem Unbekannte das Gesicht von Hollywoodschauspielerin Gal Gadot auf das Gesicht einer Pornodarstellerin in einer expliziten Szene legten. Das Ergebnis sieht so aus, als würde Gal Gadot selbst in diesem Porno mitspielen.
Deep Fakes können Gesichter im Video nahezu beliebig kontrollieren
Andererseits kann man aber auch das Gesicht einer Person Grimassen schneiden oder diese beliebige Dinge sagen lassen. Tatsächlich ist es sogar möglich, dass das Videobild sich live so verändert, wie das etwa eine andere Person gerade tut. Deren Mimik muss dann über Motion Capturing zunächst digitalisiert und anschließend auf das Gesicht im Deep Fake übertragen werden.
Auf diese Weise hätte also tatsächlich ein Videobild von Vitali Klitschko an einem Gespräch mit Franziska Giffey teilnehmen können. Der wahre Sprecher wäre dann aber jemand anderes gewesen. Ob das aber wirklich so war, lässt sich nicht mit Sicherheit belegen: Bei den meisten Deep Fakes entstehen kleine Bildfehler, die im Gespräch vielleicht nicht auffallen würden, sich aber in einer Analyse recht schnell nachweisen ließen. Doch die Senatskanzlei hat das Interview nicht per Video aufgezeichnet, es gibt lediglich eine Reihe von Fotos.
Der investigative Journalist Daniel Laufer hat dazu eine andere Meinung. Er ist Redakteur beim ARD-Politikmagazin „Kontraste“ und zweifelt daran, dass Berlin tatsächlich mit derlei ausgefuchster Technologie getäuscht wurde – und legte am Wochenende auf Twitter dar, dass er eher an einen sogenannten Cheap Fake (dt: "einfacher" oder "billiger" Fake) statt an Deep Fake glaubt.
Konkret bedeutet das: Laufer vermutet, dass der Staatskanzlei nicht etwa aufwendig digital erzeugte Fake-Videobilder gezeigt wurden, sondern dass die Betrüger ein zuvor mit einem ukrainischen Journalisten geführtes Interview geschickt in zahlreiche Videoschnipsel geschnitten und nur die jeweils zur Frage passenden Abschnitte eingespielt hätten.
Wie kommt Laufer zu dieser Einschätzung? Zunächst erkannte er auf den Screenshots der Senatskanzlei die Szene aus einem Interview wieder, das im April geführt wurde. Kleidung, Hintergrund, Bildausschnitt und Kopfhaltung – jede von der Senatskanzlei veröffentlichten Szenen fand Laufer irgendwo im Video-Interview aus dem April wieder.
Verschiedene Anzeichen, dass kein Deep Fake stattfand
Natürlich könnte dieses Video-Interview auch eine Quelle gewesen sein, mit der der Deep-Fake-Algorithmus trainiert wurde – es ist aber eher unwahrscheinlich. Der komplexe Hintergrund wird teilweise immer wieder durch den Kopf Vitali Klitschkos verdeckt – für die KI gäbe es hier eine zusätzliche Herausforderung, das Bild korrekt zu reproduzieren. Vermutlich wären hier schnell Fehler im Hintergrund zu erkennen. Bei einem Deep Fake hätten sich Betrüger sicherlich für eine weiße Wand als Hintergrund entschieden, schreibt Laufer.
Denkbar wäre, dass die Fälscher nur das Gesicht selbst manipuliert hätten, doch auch daran glaubt der Journalist nicht: Er habe alle fünf von der Senatskanzlei veröffentlichten Bilder mit dem Original-Interview abgeglichen und in den ersten fünf Minuten für jede abgebildete Szene eine Übereinstimmung gefunden (gleiche Mimik, gleiche Kopfposition, gleiche Verdeckung des Hintergrunds).
Hätte eine KI hier wirklich Änderungen vorgenommen, wäre dieser hohe Grad an Übereinstimmung nicht möglich, schreibt Laufer auf Twitter.
Er glaubt stattdessen, dass kurze Videoausschnitte live neu zusammengesetzt wurden. Normalerweise wären die Übergänge zwischen den Clips sichtbar – etwa weil sich der Kopf plötzlich an einer anderen Stelle im Bild befindet. Doch in einem Videotelefonat lassen sich solche Sprünge leicht als kurze Bildaussetzer inszenieren, die keinerlei Verdacht hervorrufen.
Abschließend bleibt noch eine Besonderheit, die darauf hindeutet, dass der Betrug ganz ohne KI auskommen konnte: die Tonspur. Denn laut Senatskanzlei hätten der Sprachton und das Videobild von Vitali Klitschko jederzeit kohärent zusammengepasst.
Vermeintlicher Übersetzer vermutlich Schlüssel für die veränderten Aussagen
Hier kommt aber eine weitere Besonderheit ins Spiel: Giffey und ihre Kollegen hörten nicht etwa Vitali Klitschko dabei zu, wie er auf Deutsch auf ihre Fragen antwortete. Stattdessen sprach er im Video russisch. Ein mutmaßlicher Übersetzer – ebenfalls aufseiten des falschen Klitschkos – erzählte mit leichter Verzögerung, was Klitschko gerade auf Russisch sagte.
Franziska Giffey schrieb dazu auf Twitter, dass man zu Beginn gefragt wurde, ob das Gespräch auf Russisch und mit deutscher Übersetzung stattfinden könne, da andere, nicht-deutschsprachige Mitarbeiterinnen dabei seien, die das Besprochene verstehen sollen.
Wie es sich tatsächlich zugetragen hat, lässt sich in Ermangelung einer Videoaufzeichnung kaum feststellen. Daniel Laufer zeigt mit seinen Indizien aber, dass man sich derzeit durchaus noch gegen derlei Cheap Fakes wehren kann. Etwa, dass ein russischsprachiger Mitarbeiter in Berlin eine Diskrepanz zwischen Originalton und vermeintlichem Übersetzer hätte offenlegen können.
Damit bleibt vermutlich weiterhin die Frage offen, ob ein Deep Fake in solch einer Live-Situation so täuschend echt umgesetzt werden könnte, dass sich auch ein geübtes Auge täuschen ließe. Experten wie Laufer glauben das derzeit eher nicht. Grundsätzlich ist das wohl aber nur eine Frage der Zeit.
- Eigene Recherchen