MÜNCHEN (IT BOLTWISE) – Forscher haben einen neuen Weg entwickelt, um KI-Sprachmodelle effizienter zu betreiben, indem sie die Matrix-Multiplikation aus dem Prozess eliminieren.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Forscher behaupten, einen neuen Weg gefunden zu haben, um KI-Sprachmodelle effizienter zu betreiben, indem sie die Matrix-Multiplikation aus dem Prozess eliminieren. Dies stellt eine grundlegende Neugestaltung der neuronalen Netzwerkoperationen dar, die derzeit durch GPU-Chips beschleunigt werden. Die Ergebnisse, die in einem kürzlich veröffentlichten Preprint-Papier von Forschern der University of California Santa Cruz, UC Davis, LuxiTech und der Soochow University detailliert beschrieben werden, könnten tiefgreifende Auswirkungen auf die Umweltbelastung und die Betriebskosten von KI-Systemen haben.
Matrix-Multiplikation (oft als „MatMul“ abgekürzt) steht im Mittelpunkt der meisten neuronalen Netzwerkberechnungen heute, und GPUs sind besonders gut darin, diese mathematischen Aufgaben schnell auszuführen, da sie eine große Anzahl von Multiplikationsoperationen parallel durchführen können. Diese Fähigkeit machte Nvidia letzte Woche kurzzeitig zum wertvollsten Unternehmen der Welt; das Unternehmen hält derzeit geschätzte 98 Prozent des Marktanteils für Rechenzentrums-GPUs, die häufig zur Unterstützung von KI-Systemen wie ChatGPT und Google Gemini eingesetzt werden.
In dem neuen Papier mit dem Titel „Scalable MatMul-free Language Modeling“ beschreiben die Forscher die Erstellung eines maßgeschneiderten Modells mit 2,7 Milliarden Parametern ohne Verwendung von MatMul, das eine ähnliche Leistung wie herkömmliche große Sprachmodelle (LLMs) aufweist. Sie demonstrierten auch, dass ein 1,3 Milliarden Parameter Modell mit 23,8 Token pro Sekunde auf einer GPU läuft, die durch einen speziell programmierten FPGA-Chip beschleunigt wurde, der etwa 13 Watt Leistung verbraucht (ohne den Stromverbrauch der GPU). Die Implikation ist, dass ein effizienterer FPGA „den Weg für die Entwicklung effizienterer und hardwarefreundlicherer Architekturen ebnet“, so die Forscher.
Die Technik wurde noch nicht von Fachleuten überprüft, aber die Forscher—Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou und Jason Eshraghian—behaupten, dass ihre Arbeit das vorherrschende Paradigma in Frage stellt, dass Matrix-Multiplikationsoperationen für den Bau leistungsstarker Sprachmodelle unverzichtbar sind. Sie argumentieren, dass ihr Ansatz große Sprachmodelle zugänglicher, effizienter und nachhaltiger machen könnte, insbesondere für den Einsatz auf ressourcenbeschränkter Hardware wie Smartphones.
Im Papier erwähnen die Forscher BitNet (die sogenannte „1-Bit“ Transformer-Technik, die im Oktober als Preprint veröffentlicht wurde) als wichtigen Vorläufer ihrer Arbeit. Laut den Autoren zeigte BitNet die Machbarkeit der Verwendung von binären und ternären Gewichten in Sprachmodellen und skalierte erfolgreich auf 3 Milliarden Parameter, während es eine wettbewerbsfähige Leistung beibehielt.
Jedoch, so merken sie an, dass BitNet immer noch auf Matrix-Multiplikationen in seinem Selbstaufmerksamkeitsmechanismus angewiesen war. Die Einschränkungen von BitNet dienten als Motivation für die aktuelle Studie und drängten sie dazu, eine vollständig „MatMul-freie“ Architektur zu entwickeln, die die Leistung beibehalten kann, während die Matrix-Multiplikationen auch im Aufmerksamkeitsmechanismus eliminiert werden.
Der Ansatz der Forscher umfasst zwei Hauptinnovationen: Erstens entwickelten sie ein maßgeschneidertes Sprachmodell und beschränkten es auf die Verwendung von nur ternären Werten (-1, 0, 1) anstelle von herkömmlichen Gleitkommazahlen, was einfachere Berechnungen ermöglicht. Zweitens entwarfen die Forscher den rechnerisch aufwendigen Selbstaufmerksamkeitsmechanismus in traditionellen Sprachmodellen mit einer einfacheren, effizienteren Einheit (die sie MatMul-free Linear Gated Recurrent Unit oder MLGRU nannten), die Wörter sequenziell mithilfe grundlegender arithmetischer Operationen anstelle von Matrix-Multiplikationen verarbeitet.
Drittens passten sie eine Gated Linear Unit (GLU)—einen Mechanismus zur Steuerung des Informationsflusses in neuronalen Netzwerken—an, um ternäre Gewichte für das Kanal-Mixing zu verwenden. Kanal-Mixing bezieht sich auf den Prozess der Kombination und Transformation verschiedener Aspekte oder Merkmale der Daten, mit denen die KI arbeitet, ähnlich wie ein DJ verschiedene Audiokanäle mischt, um ein kohärentes Lied zu erstellen.
Diese Änderungen, kombiniert mit einer speziellen Hardware-Implementierung zur Beschleunigung ternärer Operationen durch den bereits erwähnten FPGA-Chip, ermöglichten es den Forschern, was sie behaupten, eine Leistung zu erreichen, die mit modernen Modellen vergleichbar ist, während der Energieverbrauch reduziert wird. Obwohl sie Vergleiche auf GPUs durchführten, um Benchmarks gegen traditionelle Modelle zu setzen, sind die MatMul-freien Modelle darauf ausgelegt, effizient auf Hardware zu arbeiten, die für einfachere arithmetische Operationen optimiert ist, wie FPGAs. Dies deutet darauf hin, dass diese Modelle potenziell auf verschiedenen Arten von Hardware betrieben werden könnten, einschließlich solcher mit begrenzteren Rechenressourcen als GPUs.
Um ihren Ansatz zu bewerten, verglichen die Forscher ihr MatMul-freies Sprachmodell mit einem reproduzierten Llama-2-Style-Modell (das sie „Transformer++“ nennen) über drei Modellgrößen: 370M, 1.3B und 2.7B Parameter. Alle Modelle wurden auf dem SlimPajama-Dataset vortrainiert, wobei die größeren Modelle jeweils auf 100 Milliarden Token trainiert wurden. Die Forscher behaupten, dass das MatMul-freie Sprachmodell eine wettbewerbsfähige Leistung gegenüber dem Llama 2-Basismodell bei mehreren Benchmark-Aufgaben, einschließlich der Beantwortung von Fragen, des gesunden Menschenverstandes und des physikalischen Verständnisses, erreichte.
Zusätzlich zu den Energieeinsparungen reduzierte das MatMul-freie Sprachmodell der Forscher den Speicherbedarf erheblich. Ihre optimierte GPU-Implementierung verringerte den Speicherverbrauch während des Trainings im Vergleich zu einem nicht optimierten Basismodell um bis zu 61 Prozent.
Um es klarzustellen: Ein 2,7 Milliarden Parameter Llama-2-Modell ist weit entfernt von den derzeit besten Sprachmodellen auf dem Markt, wie GPT-4, das schätzungsweise über 1 Billion Parameter in Summe aufweist. GPT-3 wurde 2020 mit 175 Milliarden Parametern veröffentlicht. Die Parameteranzahl bedeutet im Allgemeinen mehr Komplexität (und ungefähr mehr Fähigkeit) im Modell, aber gleichzeitig finden Forscher Wege, um eine höhere Leistung bei Sprachmodellen mit weniger Parametern zu erreichen.
Das heißt, wir sprechen hier noch nicht von der Verarbeitungsleistung auf ChatGPT-Niveau, aber die Technik der UC Santa Cruz schließt dieses Leistungsniveau nicht unbedingt aus, wenn mehr Ressourcen zur Verfügung stehen.
Die Forscher sagen, dass Skalierungsgesetze, die in ihren Experimenten beobachtet wurden, darauf hindeuten, dass das MatMul-freie Sprachmodell auch traditionelle Sprachmodelle in sehr großem Maßstab übertreffen könnte. Die Forscher prognostizieren, dass ihr Ansatz theoretisch die Leistung von Standardmodellen bei Skalen von etwa 10²³ FLOPS (Floating Point Operations per Second) erreichen und übertreffen könnte, was ungefähr dem Trainingsaufwand für Modelle wie Meta’s Llama-3 8B oder Llama-2 70B entspricht.
Die Autoren weisen jedoch darauf hin, dass ihre Arbeit Einschränkungen aufweist. Das MatMul-freie Sprachmodell wurde nicht an extrem großskaligen Modellen (z.B. 100 Milliarden Parameter und mehr) getestet, aufgrund von Rechenbeschränkungen. Sie fordern Institutionen mit größeren Ressourcen auf, in die Skalierung und Weiterentwicklung dieses leichten Ansatzes zur Sprachmodellierung zu investieren.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.