MÜNCHEN (IT BOLTWISE) – Forscher bei Meta haben MAGNeT (Masked Audio Generation using Non-autoregressive Transformers) open-sourced, ein neues KI-Modell, das in der Lage ist, Studioqualität-Text-zu-Musik und Text-zu-Sound-Ergebnisse zu generieren – und das bis zu 7 Mal schneller als aktuelle Spitzenmodelle.
Meta erklärt, dass MAGNeT mit 16.000 Stunden lizenzierter Musik trainiert wurde. Speziell wurde ein internes Datenset von 10.000 hochwertigen Musiktracks verwendet, zusätzlich zu Musikdaten von ShutterStock und Pond5. Im Gegensatz zu führenden Modellen, die entweder auf langsameren autoregressiven Decodierungen basieren, die Audio-Signale sequenziell generieren, oder auf diffusionsbasierten Architekturen, die längere Sampling-Verfahren benötigen, verwendet MAGNeT paralleles maskiertes prädiktives Coding. Dies ermöglicht es dem Modell, 30-sekündige musikalische Kompositionen und Klanglandschaften in einem Bruchteil einer Sekunde zu generieren, mit einer Qualität, die bedingungslosen Sprachmodellen und Diffusionstechniken ebenbürtig ist.
Diese beeindruckende Geschwindigkeit resultiert aus seinem maskierten generativen Sequenzmodellierung direkt auf rohen Audio-Wellenform-Token. Das Modell besteht aus einem einzigen Transformer, der Spannen von maskiertem Input vorhersagt, bedingt durch sichtbaren Kontext in einer Serie von nicht-autoregressiven Decodierungsiterationen. Eine neuartige Neubewertungskomponente verfeinert dann die Audio-Treue, indem sie ein extern trainiertes Modell nutzt, um Vorhersagen neu zu bewerten und zu ranken, die dann in nachfolgenden Decodierungsschritten verwendet werden.
Die Forscher stellten auch eine hybride Version von MAGNeT vor, die die Stärken von autoregressiven und nicht-autoregressiven Modellen kombiniert, indem sie die ersten Sekunden des Audios sequenziell generiert, bevor sie zu einer Hochgeschwindigkeitsparallelerzeugung wechselt – und so die Vorteile beider Ansätze einfängt.
Evaluierungen haben ergeben, dass MAGNeT Parität mit oder marginal hinter Baselines auf Metriken wie der Frechet Audio Distance erreicht hat, während ihre Geschwindigkeit um bis zu 700% übertroffen wurde. Für Anwendungen wie interaktive Musikerstellung, die Echtzeitsynthese von Sound erfordern, verspricht MAGNeT einen transformativen Fortschritt.
Die Entwicklung von MAGNeT beleuchtet die Trade-offs zwischen autoregressiver und nicht-autoregressiver Modellierung, insbesondere in Bezug auf Latenz, Durchsatz und Generierungsqualität. Durch die Bereitstellung einer detaillierten Analyse dieser Aspekte bieten die Forscher hinter MAGNeT wertvolle Einblicke in die möglichen Richtungen für zukünftige Forschungen in der Audiogenerierungstechnologie.
Meta hat MAGNeT als Teil von AudioCraft, ihrer Einzelstop-Codebasis für alle generativen Audio-Lösungen, open-sourced.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Bitte vergiss nicht in deiner eMail die Artikel-Headline zu nennen: "Durchbruch bei Meta: MAGNeT erzeugt Studioqualität-Audio in Rekordzeit".
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Durchbruch bei Meta: MAGNeT erzeugt Studioqualität-Audio in Rekordzeit" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Durchbruch bei Meta: MAGNeT erzeugt Studioqualität-Audio in Rekordzeit" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.