MÜNCHEN (IT BOLTWISE) – Eine neuartige Methode ermöglicht es KI-Tools wie Stable Diffusion und DALL-E-3, den Prozess der Bildgenerierung auf einen einzigen Schritt zu vereinfachen, während die Qualität der Bilder beibehalten oder sogar verbessert wird und die Geschwindigkeit um das 30-fache erhöht wird. Forscher des MIT CSAIL haben einen bedeutenden Durchbruch erzielt, indem sie die traditionellen, mehrstufigen Diffusionsmodelle in einen einzigen Schritt vereinfacht haben.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
In unserer aktuellen Ära der künstlichen Intelligenz können Computer eigenständig „Kunst“ erzeugen, indem sie Diffusionsmodelle nutzen, die schrittweise Struktur in einen anfänglich verrauschten Zustand bringen, bis ein klares Bild oder Video entsteht. Diese Modelle haben plötzlich einen Platz am Tisch jedes Einzelnen gefunden: Geben Sie ein paar Worte ein und erleben Sie augenblicklich Traumlandschaften an der Schnittstelle von Realität und Fantasie, die Dopamin-Schübe auslösen. Hinter den Kulissen handelt es sich um einen komplexen, zeitaufwendigen Prozess, der zahlreiche Iterationen erfordert, damit der Algorithmus das Bild perfektionieren kann.
Forscher des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben einen neuen Rahmen vorgestellt, der den mehrstufigen Prozess traditioneller Diffusionsmodelle in einen einzigen Schritt vereinfacht und bisherige Einschränkungen adressiert. Dies wird durch eine Art Lehrer-Schüler-Modell erreicht: Ein neues Computermodell wird gelehrt, das Verhalten komplizierterer, ursprünglicher Modelle, die Bilder generieren, nachzuahmen.
Der als Distribution Matching Distillation (DMD) bekannte Ansatz erhält die Qualität der generierten Bilder bei und ermöglicht eine viel schnellere Generierung.
„Unsere Arbeit ist eine neuartige Methode, die aktuelle Diffusionsmodelle wie Stable Diffusion und DALL-E-3 um das 30-fache beschleunigt“, sagt Tianwei Yin, ein Doktorand des MIT in Elektrotechnik und Informatik, CSAIL-Affiliate und der leitende Forscher des DMD-Frameworks.
„Dieser Fortschritt reduziert nicht nur die Rechenzeit erheblich, sondern erhält oder übertrifft sogar die Qualität des generierten visuellen Inhalts. Theoretisch vereint der Ansatz die Prinzipien generativer adversarialer Netzwerke (GANs) mit denen von Diffusionsmodellen und erreicht die Generierung visuellen Inhalts in einem einzigen Schritt – im Gegensatz zu den hundert Schritten iterativer Verfeinerung, die von aktuellen Diffusionsmodellen benötigt werden. Es könnte potenziell eine neue generative Modellierungsmethode sein, die in Geschwindigkeit und Qualität herausragt.“
Dieses Ein-Schritt-Diffusionsmodell könnte Design-Tools verbessern, indem es eine schnellere Inhaltskreation ermöglicht und möglicherweise Fortschritte in der Medikamentenentdeckung und 3D-Modellierung unterstützt, wo Schnelligkeit und Wirksamkeit entscheidend sind.
DMD hat geschickt zwei Komponenten. Zuerst verwendet es einen Regressionsverlust, der die Abbildung verankert, um eine grobe Organisation des Bildraums zu gewährleisten und das Training stabiler zu machen.
Anschließend verwendet es einen Distribution Matching Verlust, der sicherstellt, dass die Wahrscheinlichkeit, ein bestimmtes Bild mit dem Schülermodell zu generieren, seiner realen Auftretenshäufigkeit entspricht. Um dies zu tun, nutzt es zwei Diffusionsmodelle, die als Leitfäden dienen und dem System helfen, den Unterschied zwischen realen und generierten Bildern zu verstehen, was das Training des schnellen Ein-Schritt-Generators möglich macht.
Das System erreicht eine schnellere Generierung, indem es ein neues Netzwerk trainiert, um die Distributionsdivergenz zwischen seinen generierten Bildern und denen aus dem Trainingsdatensatz, der von traditionellen Diffusionsmodellen verwendet wird, zu minimieren. „Unsere Schlüsseleinsicht ist, Gradienten zu approximieren, die die Verbesserung des neuen Modells leiten, indem zwei Diffusionsmodelle verwendet werden“, sagt Yin.
„Auf diese Weise destillieren wir das Wissen des ursprünglichen, komplexeren Modells in das einfachere, schnellere, während wir die berüchtigten Instabilitäts- und Mode-Collapse-Probleme bei GANs umgehen.“
Yin und Kollegen verwendeten vortrainierte Netzwerke für das neue Schülermodell, was den Prozess vereinfachte. Indem sie Parameter von den Originalmodellen kopierten und feinabstimmten, erreichte das Team eine schnelle Trainingskonvergenz des neuen Modells, das in der Lage ist, hochwertige Bilder mit derselben architektonischen Grundlage zu produzieren. „Dies ermöglicht es, weitere Systemoptimierungen auf der Grundlage der Originalarchitektur zu kombinieren, um den Erstellungsprozess weiter zu beschleunigen“, fügt Yin hinzu.
Bei Tests gegen die üblichen Methoden, unter Verwendung einer breiten Palette von Benchmarks, zeigte DMD eine konsistente Leistung. Im beliebten Benchmark der Generierung von Bildern basierend auf spezifischen Klassen auf ImageNet ist DMD die erste Ein-Schritt-Diffusionstechnik, die Bilder erzeugt, die ziemlich genau mit denen der ursprünglichen, komplexeren Modelle übereinstimmen, mit einer super-nahen Fréchet-Inception-Distanz (FID) von nur 0,3, was beeindruckend ist, da FID alles darum geht, die Qualität und Vielfalt generierter Bilder zu beurteilen.
Darüber hinaus zeichnet sich DMD in der industriellen Text-zu-Bild-Generierung aus und erreicht eine Spitzenleistung bei der Ein-Schritt-Generierung. Es gibt immer noch eine leichte Qualitätslücke bei der Bewältigung kniffliger Text-zu-Bild-Anwendungen, was darauf hindeutet, dass es noch etwas Raum für Verbesserungen gibt.
Außerdem ist die Leistung der von DMD generierten Bilder intrinsisch mit den Fähigkeiten des Lehrermodells verbunden, das während des Destillationsprozesses verwendet wird. In der aktuellen Form, die Stable Diffusion v1.5 als Lehrermodell verwendet, erbt das Schülermodell Einschränkungen wie die Darstellung detaillierter Beschreibungen von Text und kleinen Gesichtern, was darauf hindeutet, dass fortgeschrittenere Lehrermodelle die von DMD generierten Bilder weiter verbessern könnten.
„Die Verringerung der Anzahl der Iterationen war seit ihrer Entstehung der Heilige Gral in Diffusionsmodellen“, sagt Fredo Durand, MIT-Professor für Elektrotechnik und Informatik, CSAIL Principal Investigator und leitender Autor der Studie. „Wir sind sehr gespannt darauf, die Ein-Schritt-Bildgenerierung endlich zu ermöglichen, was die Rechenkosten drastisch reduzieren und den Prozess beschleunigen wird.“
„Endlich ein Papier, das erfolgreich die Vielseitigkeit und hohe visuelle Qualität von Diffusionsmodellen mit der Echtzeitleistung von GANs kombiniert“, sagt Alexei Efros, Professor für Elektrotechnik und Informatik an der University of California in Berkeley, der nicht an dieser Studie beteiligt war. „Ich erwarte, dass diese Arbeit fantastische Möglichkeiten für hochwertige Echtzeit-Visualediting eröffnet.“
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.