MÜNCHEN (IT BOLTWISE) – Researcher des Alibaba Institute for Intelligent Computing haben mit “EMO” ein neues KI-System entwickelt, das Fotos in realistische Sprech- und Singvideos verwandelt.

Forscher am Institut für Intelligente Berechnungen von Alibaba haben ein neues Künstliche Intelligenz-System namens „EMO“, kurz für Emote Portrait Alive, entwickelt, das ein einzelnes Porträtfoto animieren und Videos der sprechenden oder singenden Person in bemerkenswert lebensechter Weise generieren kann. Das System, beschrieben in einem Forschungspapier auf arXiv, ist in der Lage, fließende und ausdrucksstarke Gesichtsbewegungen und Kopfhaltungen zu erzeugen, die die Nuancen einer bereitgestellten Audiospur genau nachahmen. Dies stellt einen großen Fortschritt in der Erzeugung von sprechenden Kopf-Videos angetrieben durch Audio dar, einem Bereich, der KI-Forscher seit Jahren herausfordert. „Traditionelle Techniken scheitern oft daran, das volle Spektrum menschlicher Ausdrücke und die Einzigartigkeit individueller Gesichtsstile zu erfassen“, sagte Hauptautor Linrui Tian in dem Papier. „Um diese Probleme anzugehen, schlagen wir EMO vor, einen neuartigen Rahmen, der einen direkten Audio-zu-Video-Syntheseansatz nutzt und die Notwendigkeit für Zwischen-3D-Modelle oder Gesichtslandmarken umgeht.“

EMO verwendet eine KI-Technik, bekannt als Diffusionsmodell, das eine enorme Fähigkeit für die Generierung realistischer synthetischer Bilder gezeigt hat. Die Forscher trainierten das Modell mit einem Datensatz von über 250 Stunden an sprechenden Kopf-Videos, kuratiert aus Reden, Filmen, Fernsehsendungen und Gesangsaufführungen. Anders als vorherige Methoden, die sich auf 3D-Gesichtsmodelle oder Mischformen verlassen, um Gesichtsbewegungen anzunähern, wandelt EMO die Audiowelle direkt in Videobilder um. Dies ermöglicht es, subtile Bewegungen und identitätsspezifische Eigenheiten, die mit natürlicher Sprache verbunden sind, zu erfassen. Laut in dem Papier beschriebenen Experimenten übertrifft EMO bestehende Methoden der neuesten Generation deutlich in Bezug auf Videoqualität, Identitätserhaltung und Ausdruckskraft. Die Forscher führten auch eine Benutzerstudie durch, die fand, dass die von EMO generierten Videos natürlicher und emotionaler als die von anderen Systemen produzierten waren.

Über sprechende Videos hinaus kann EMO auch singende Porträts mit angemessenen Mundformen und ausdrucksvollen Gesichtsausdrücken animieren, synchronisiert zum Gesang. Das System unterstützt die Erzeugung von Videos für eine beliebige Dauer, basierend auf der Länge der Eingabe-Audio. „Experimentelle Ergebnisse zeigen, dass EMO nicht nur überzeugende Sprechvideos, sondern auch Singvideos in verschiedenen Stilen produzieren kann, und übertrifft dabei bestehende Methoden der neuesten Generation deutlich in Bezug auf Ausdruckskraft und Realismus“, so das Papier. Die Forschung zu EMO deutet auf eine Zukunft hin, in der personalisierter Videoinhalt aus nur einem Foto und einem Audio-Clip synthetisiert werden kann. Es bestehen jedoch ethische Bedenken hinsichtlich des möglichen Missbrauchs dieser Technologie zur Personenimitation ohne Zustimmung oder zur Verbreitung von Falschinformationen. Die Forscher sagen, sie planen, Methoden zur Erkennung synthetischer Videos zu erforschen.

Alibabas KI-System 'EMO' verwandelt Fotos in realistische Sprech- und Singvideos
Alibabas KI-System ‘EMO’ verwandelt Fotos in realistische Sprech- und Singvideos (Foto:Midjourney, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.









Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht
49 Bewertungen
Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht
  • Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird
Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
124 Bewertungen
Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
  • Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut
KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)
69 Bewertungen
KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)
  • Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein
Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition
40 Bewertungen
Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition
  • Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "Alibabas KI-System “EMO” verwandelt Fotos in realistische Sprech- und Singvideos".
Stichwörter AI Artificial Intelligence Audio-driven Video Diffusionsmodell EMO Emote Portrait Alive KI Künstliche Intelligenz Talking Head Video
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
Telegram
LinkedIn
Facebook
Twitter
Instagram
#Podcast
YouTube
Spotify
Apple
#Werbung
Shirts
Roboter
Home
Bücher
AI Jobs
Spielzeug
Games
Kinder
Audio

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Alibabas KI-System “EMO” verwandelt Fotos in realistische Sprech- und Singvideos" für unsere Leser?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

  • Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)


  • Es werden alle Kommentare moderiert!

    Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

    Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

    Du willst nichts verpassen?

    Du möchtest über ähnliche News und Beiträge wie "Alibabas KI-System “EMO” verwandelt Fotos in realistische Sprech- und Singvideos" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.

    362 Leser gerade online auf IT BOLTWISE®