Alibabas KI-System "EMO" verwandelt Fotos in realistische Sprech- und Singvideos - IT BOLTWISE® x Artificial Intelligence

MÜNCHEN (IT BOLTWISE) – Researcher des Alibaba Institute for Intelligent Computing haben mit „EMO“ ein neues KI-System entwickelt, das Fotos in realistische Sprech- und Singvideos verwandelt.

Forscher am Institut für Intelligente Berechnungen von Alibaba haben ein neues Künstliche Intelligenz-System namens „EMO“, kurz für Emote Portrait Alive, entwickelt, das ein einzelnes Porträtfoto animieren und Videos der sprechenden oder singenden Person in bemerkenswert lebensechter Weise generieren kann. Das System, beschrieben in einem Forschungspapier auf arXiv, ist in der Lage, fließende und ausdrucksstarke Gesichtsbewegungen und Kopfhaltungen zu erzeugen, die die Nuancen einer bereitgestellten Audiospur genau nachahmen. Dies stellt einen großen Fortschritt in der Erzeugung von sprechenden Kopf-Videos angetrieben durch Audio dar, einem Bereich, der KI-Forscher seit Jahren herausfordert. „Traditionelle Techniken scheitern oft daran, das volle Spektrum menschlicher Ausdrücke und die Einzigartigkeit individueller Gesichtsstile zu erfassen“, sagte Hauptautor Linrui Tian in dem Papier. „Um diese Probleme anzugehen, schlagen wir EMO vor, einen neuartigen Rahmen, der einen direkten Audio-zu-Video-Syntheseansatz nutzt und die Notwendigkeit für Zwischen-3D-Modelle oder Gesichtslandmarken umgeht.“

EMO verwendet eine KI-Technik, bekannt als Diffusionsmodell, das eine enorme Fähigkeit für die Generierung realistischer synthetischer Bilder gezeigt hat. Die Forscher trainierten das Modell mit einem Datensatz von über 250 Stunden an sprechenden Kopf-Videos, kuratiert aus Reden, Filmen, Fernsehsendungen und Gesangsaufführungen. Anders als vorherige Methoden, die sich auf 3D-Gesichtsmodelle oder Mischformen verlassen, um Gesichtsbewegungen anzunähern, wandelt EMO die Audiowelle direkt in Videobilder um. Dies ermöglicht es, subtile Bewegungen und identitätsspezifische Eigenheiten, die mit natürlicher Sprache verbunden sind, zu erfassen. Laut in dem Papier beschriebenen Experimenten übertrifft EMO bestehende Methoden der neuesten Generation deutlich in Bezug auf Videoqualität, Identitätserhaltung und Ausdruckskraft. Die Forscher führten auch eine Benutzerstudie durch, die fand, dass die von EMO generierten Videos natürlicher und emotionaler als die von anderen Systemen produzierten waren.

Über sprechende Videos hinaus kann EMO auch singende Porträts mit angemessenen Mundformen und ausdrucksvollen Gesichtsausdrücken animieren, synchronisiert zum Gesang. Das System unterstützt die Erzeugung von Videos für eine beliebige Dauer, basierend auf der Länge der Eingabe-Audio. „Experimentelle Ergebnisse zeigen, dass EMO nicht nur überzeugende Sprechvideos, sondern auch Singvideos in verschiedenen Stilen produzieren kann, und übertrifft dabei bestehende Methoden der neuesten Generation deutlich in Bezug auf Ausdruckskraft und Realismus“, so das Papier. Die Forschung zu EMO deutet auf eine Zukunft hin, in der personalisierter Videoinhalt aus nur einem Foto und einem Audio-Clip synthetisiert werden kann. Es bestehen jedoch ethische Bedenken hinsichtlich des möglichen Missbrauchs dieser Technologie zur Personenimitation ohne Zustimmung oder zur Verbreitung von Falschinformationen. Die Forscher sagen, sie planen, Methoden zur Erkennung synthetischer Videos zu erforschen.

Alibabas KI-System 'EMO' verwandelt Fotos in realistische Sprech- und Singvideos
Alibabas KI-System ‚EMO‘ verwandelt Fotos in realistische Sprech- und Singvideos (Foto:Midjourney, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.