KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs

MÜNCHEN (IT BOLTWISE) – Forscher haben einen neuen Weg entwickelt, um KI-Sprachmodelle effizienter zu betreiben, indem sie die Matrix-Multiplikation aus dem Prozess eliminieren.

Die besten Bücher rund um KI & Robotik präsentiert von Amazon!
Unsere täglichen KI-News von IT Boltwise® bei LinkedIn abonnieren!
KI-Meldungen bequem via Telegram oder per Newsletter erhalten!
IT Boltwise® bei Facy oder Insta als Fan markieren und abonnieren!
AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
RSS-Feed 2.0 von IT Boltwise® für KI-News speichern!

Forscher behaupten, einen neuen Weg gefunden zu haben, um KI-Sprachmodelle effizienter zu betreiben, indem sie die Matrix-Multiplikation aus dem Prozess eliminieren. Dies stellt eine grundlegende Neugestaltung der neuronalen Netzwerkoperationen dar, die derzeit durch GPU-Chips beschleunigt werden. Die Ergebnisse, die in einem kürzlich veröffentlichten Preprint-Papier von Forschern der University of California Santa Cruz, UC Davis, LuxiTech und der Soochow University detailliert beschrieben werden, könnten tiefgreifende Auswirkungen auf die Umweltbelastung und die Betriebskosten von KI-Systemen haben.

Matrix-Multiplikation (oft als “MatMul” abgekürzt) steht im Mittelpunkt der meisten neuronalen Netzwerkberechnungen heute, und GPUs sind besonders gut darin, diese mathematischen Aufgaben schnell auszuführen, da sie eine große Anzahl von Multiplikationsoperationen parallel durchführen können. Diese Fähigkeit machte Nvidia letzte Woche kurzzeitig zum wertvollsten Unternehmen der Welt; das Unternehmen hält derzeit geschätzte 98 Prozent des Marktanteils für Rechenzentrums-GPUs, die häufig zur Unterstützung von KI-Systemen wie ChatGPT und Google Gemini eingesetzt werden.

In dem neuen Papier mit dem Titel “Scalable MatMul-free Language Modeling” beschreiben die Forscher die Erstellung eines maßgeschneiderten Modells mit 2,7 Milliarden Parametern ohne Verwendung von MatMul, das eine ähnliche Leistung wie herkömmliche große Sprachmodelle (LLMs) aufweist. Sie demonstrierten auch, dass ein 1,3 Milliarden Parameter Modell mit 23,8 Token pro Sekunde auf einer GPU läuft, die durch einen speziell programmierten FPGA-Chip beschleunigt wurde, der etwa 13 Watt Leistung verbraucht (ohne den Stromverbrauch der GPU). Die Implikation ist, dass ein effizienterer FPGA “den Weg für die Entwicklung effizienterer und hardwarefreundlicherer Architekturen ebnet”, so die Forscher.

Die Technik wurde noch nicht von Fachleuten überprüft, aber die Forscher—Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou und Jason Eshraghian—behaupten, dass ihre Arbeit das vorherrschende Paradigma in Frage stellt, dass Matrix-Multiplikationsoperationen für den Bau leistungsstarker Sprachmodelle unverzichtbar sind. Sie argumentieren, dass ihr Ansatz große Sprachmodelle zugänglicher, effizienter und nachhaltiger machen könnte, insbesondere für den Einsatz auf ressourcenbeschränkter Hardware wie Smartphones.

Im Papier erwähnen die Forscher BitNet (die sogenannte “1-Bit” Transformer-Technik, die im Oktober als Preprint veröffentlicht wurde) als wichtigen Vorläufer ihrer Arbeit. Laut den Autoren zeigte BitNet die Machbarkeit der Verwendung von binären und ternären Gewichten in Sprachmodellen und skalierte erfolgreich auf 3 Milliarden Parameter, während es eine wettbewerbsfähige Leistung beibehielt.

Jedoch, so merken sie an, dass BitNet immer noch auf Matrix-Multiplikationen in seinem Selbstaufmerksamkeitsmechanismus angewiesen war. Die Einschränkungen von BitNet dienten als Motivation für die aktuelle Studie und drängten sie dazu, eine vollständig “MatMul-freie” Architektur zu entwickeln, die die Leistung beibehalten kann, während die Matrix-Multiplikationen auch im Aufmerksamkeitsmechanismus eliminiert werden.

Der Ansatz der Forscher umfasst zwei Hauptinnovationen: Erstens entwickelten sie ein maßgeschneidertes Sprachmodell und beschränkten es auf die Verwendung von nur ternären Werten (-1, 0, 1) anstelle von herkömmlichen Gleitkommazahlen, was einfachere Berechnungen ermöglicht. Zweitens entwarfen die Forscher den rechnerisch aufwendigen Selbstaufmerksamkeitsmechanismus in traditionellen Sprachmodellen mit einer einfacheren, effizienteren Einheit (die sie MatMul-free Linear Gated Recurrent Unit oder MLGRU nannten), die Wörter sequenziell mithilfe grundlegender arithmetischer Operationen anstelle von Matrix-Multiplikationen verarbeitet.

Drittens passten sie eine Gated Linear Unit (GLU)—einen Mechanismus zur Steuerung des Informationsflusses in neuronalen Netzwerken—an, um ternäre Gewichte für das Kanal-Mixing zu verwenden. Kanal-Mixing bezieht sich auf den Prozess der Kombination und Transformation verschiedener Aspekte oder Merkmale der Daten, mit denen die KI arbeitet, ähnlich wie ein DJ verschiedene Audiokanäle mischt, um ein kohärentes Lied zu erstellen.

Diese Änderungen, kombiniert mit einer speziellen Hardware-Implementierung zur Beschleunigung ternärer Operationen durch den bereits erwähnten FPGA-Chip, ermöglichten es den Forschern, was sie behaupten, eine Leistung zu erreichen, die mit modernen Modellen vergleichbar ist, während der Energieverbrauch reduziert wird. Obwohl sie Vergleiche auf GPUs durchführten, um Benchmarks gegen traditionelle Modelle zu setzen, sind die MatMul-freien Modelle darauf ausgelegt, effizient auf Hardware zu arbeiten, die für einfachere arithmetische Operationen optimiert ist, wie FPGAs. Dies deutet darauf hin, dass diese Modelle potenziell auf verschiedenen Arten von Hardware betrieben werden könnten, einschließlich solcher mit begrenzteren Rechenressourcen als GPUs.

Um ihren Ansatz zu bewerten, verglichen die Forscher ihr MatMul-freies Sprachmodell mit einem reproduzierten Llama-2-Style-Modell (das sie “Transformer++” nennen) über drei Modellgrößen: 370M, 1.3B und 2.7B Parameter. Alle Modelle wurden auf dem SlimPajama-Dataset vortrainiert, wobei die größeren Modelle jeweils auf 100 Milliarden Token trainiert wurden. Die Forscher behaupten, dass das MatMul-freie Sprachmodell eine wettbewerbsfähige Leistung gegenüber dem Llama 2-Basismodell bei mehreren Benchmark-Aufgaben, einschließlich der Beantwortung von Fragen, des gesunden Menschenverstandes und des physikalischen Verständnisses, erreichte.

Zusätzlich zu den Energieeinsparungen reduzierte das MatMul-freie Sprachmodell der Forscher den Speicherbedarf erheblich. Ihre optimierte GPU-Implementierung verringerte den Speicherverbrauch während des Trainings im Vergleich zu einem nicht optimierten Basismodell um bis zu 61 Prozent.

Um es klarzustellen: Ein 2,7 Milliarden Parameter Llama-2-Modell ist weit entfernt von den derzeit besten Sprachmodellen auf dem Markt, wie GPT-4, das schätzungsweise über 1 Billion Parameter in Summe aufweist. GPT-3 wurde 2020 mit 175 Milliarden Parametern veröffentlicht. Die Parameteranzahl bedeutet im Allgemeinen mehr Komplexität (und ungefähr mehr Fähigkeit) im Modell, aber gleichzeitig finden Forscher Wege, um eine höhere Leistung bei Sprachmodellen mit weniger Parametern zu erreichen.

Das heißt, wir sprechen hier noch nicht von der Verarbeitungsleistung auf ChatGPT-Niveau, aber die Technik der UC Santa Cruz schließt dieses Leistungsniveau nicht unbedingt aus, wenn mehr Ressourcen zur Verfügung stehen.

Die Forscher sagen, dass Skalierungsgesetze, die in ihren Experimenten beobachtet wurden, darauf hindeuten, dass das MatMul-freie Sprachmodell auch traditionelle Sprachmodelle in sehr großem Maßstab übertreffen könnte. Die Forscher prognostizieren, dass ihr Ansatz theoretisch die Leistung von Standardmodellen bei Skalen von etwa 10²³ FLOPS (Floating Point Operations per Second) erreichen und übertreffen könnte, was ungefähr dem Trainingsaufwand für Modelle wie Meta’s Llama-3 8B oder Llama-2 70B entspricht.

Die Autoren weisen jedoch darauf hin, dass ihre Arbeit Einschränkungen aufweist. Das MatMul-freie Sprachmodell wurde nicht an extrem großskaligen Modellen (z.B. 100 Milliarden Parameter und mehr) getestet, aufgrund von Rechenbeschränkungen. Sie fordern Institutionen mit größeren Ressourcen auf, in die Skalierung und Weiterentwicklung dieses leichten Ansatzes zur Sprachmodellierung zu investieren.

Zu den Top-Stories!

KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs (Foto: DALL-E, IT BOLTWISE)

Folgen Sie uns

Tweet #itboltwise

Stellenangebote

Referent/Referentin Digitalisierung und Künstliche Intelligenz in Voll- und Teilzeit (m/w/d)

Sparkasse Duisburg

Duisburg

Product Owner (m/w/d) Künstliche Intelligenz

Optica Abrechnungszentrum Dr. Güldener GmbH

Stuttgart

Werkstudent - KI Entwicklung (w/m/d) ab 01.09.2025

Läpple Automotive GmbH

Heilbronn

Folgen Sie aktuellen Beiträge über KI & Robotik auf Twitter, Telegram, Facebook oder LinkedIn!

Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. IT BOLTWISE® schließt jegliche Regressansprüche aus.

Diesen Artikel kommentieren

77 Bewertungen

Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht

Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird

135 Bewertungen

Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«

Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut

71 Bewertungen

KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)

Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein

51 Bewertungen

Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition

Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs".

Stichwörter AI Artificial Intelligence Effiziente KI-Modelle KI Künstliche Intelligenz Llm Matrix-Multiplikation Neural Networks Umweltauswirkungen Von KI University Of California

Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!

Nächster Artikel

Artechouse und die Revolution der Kunst durch Künstliche Intelligenz: KI, Kunst und Technologie

30. Juni 2024

Vorheriger Artikel

Erstes Bundesland verabschiedet sich von UKW: Schleswig-Holstein setzt auf DAB+ und Streaming

30. Juni 2024

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs" für unsere Leser?

Schreibe einen Kommentar Antworten abbrechen

Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)

Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Du möchtest über ähnliche News und Beiträge wie "KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.

Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs« bei Google Deutschland suchen, bei Bing oder Google News!

176 Leser gerade online auf IT BOLTWISE®

KI-Schutz gegen Hacker #Sophos

Sylvia Thun: „Noch ist die ePA ein Papiertiger im digitalen Gewand“

Warum medizinische Apps oft überschätzt werden und wie uns ChatGPT und Forschungsdaten im Alltag helfen – darüber spricht Sylvia Thun, Expertin für digitale Medizin und Interoperabilität.
Start-up: KI-Firma Parloa will Weltmarktführer im Kundendienst werden

Parloa ist nach einer neuen Finanzierungsrunde das zweite deutsche Einhorn 2025. Die weiteren Pläne der Gründer sind ambitioniert, Investoren bewerten sie aber als realistisch.
Smartphone: Handy verloren – so handeln Sie richtig

Geht das Smartphone verloren oder wird es gestohlen, ist eine schnelle Reaktion entscheidend. Wie Sie es orten können und Ihre Daten vor Missbrauch schützen.
Start-up-Check: Ticketpreise wie im ICE: Vaeridion will deutschen Elektroflieger bauen

Das Start-up lässt sich von der Lilium-Insolvenz nicht verunsichern und strebt die Zulassung für 2030 an. Deutlich früher will das Münchener Unternehmen den Erstflug absolvieren.
Telekommunikation: US-Behörde genehmigt T-Mobile Übernahmen

Die US-Behörden machen den Weg frei für zwei milliardenschwere Deals. T-Mobile hatte als Bedingung dafür auf Druck der US-Regierung Programme für Vielfalt und Inklusion beendet.
xAI : Musk stellt Update von Chatbot Grok vor – ohne auf antisemitischen Vorfall einzugehen

Elon Musk stellt die neue Version seines Chatbots vor – der die Konkurrenz übertreffen soll. Dass die Vorgängerversion Grok 3 allerdings am Vortag noch Hitler gelobt hat, lässt er außer Acht.
Künstliche Intelligenz: Ringen um deutschen Supercomputer: Unternehmen verhandeln wieder über Gigafactory

Spitzenmanager von SAP, Telekom, Ionos und der Schwarz-Gruppe treffen Digitalminister Wildberger. Kommt es zu einer gemeinsamen Bewerbung für ein KI-Großrechenzentrum?
KI-Briefing: Wie die KI-Szene mit von der Leyen um den AI Act feilscht

Bundesregierung und Industrie wollen den AI Act verschieben, Oxford stellt das Manager-Dasein infrage und ein KI-Pionier hilft Saudi-Arabien, zur KI-Macht zu werden. Die wichtigsten KI-News der Woche.
Biotechnologie: „Die größte Herausforderung ist der Zugang zu hochwertigen Daten“

Wie verunsichert die US-Politik Forschende in den USA? Was bedeutet das für den Biotech-Standort Deutschland? Welche Themen bewegen Start-ups? Darüber spricht IZB-Leiter Christian Gnam.
Waffen und Munition : Dubiose Geheimnistuerei um das Waffen-Start-up Stark

Ein auf Kampfdrohnen spezialisiertes Start-up soll mit 500 Millionen Euro bewertet werden. Nur wenige wissen, was dahintersteckt – und wollen wohl nicht, dass es herauskommt.

#1 Fachmagazin in Deutschland mit Fokus auf Künstliche Intelligenz und Robotik

KI ohne Matrix-Multiplikation: Neue Forschung für höhere Effizienz in LLMs

Hochschularbeiten im Bereich AI-Engineering - Web Computing | IT Experten in Softwareentwicklung

KI-Spezialist (m/w/d)

Duales Studium Data Science / Künstliche Intelligenz in Kooperation mit der Dualen Hochschule Baden-Württemberg 2026 (m/w/d)

Stellenangebote

Stellenangebote

Projektleiter*in Embedded AI in Sensorikanwendungen

Dozent Tourismusmanagement Tech und KI (m/w/d)

Softwareentwickler (m/w/x) - AI, Robotics & Simulation

Referent/Referentin Digitalisierung und Künstliche Intelligenz in Voll- und Teilzeit (m/w/d)

Product Owner (m/w/d) Künstliche Intelligenz

Werkstudent - KI Entwicklung (w/m/d) ab 01.09.2025

Aktuelle News über «Künstliche Intelligenz» automatisch per eMail erhalten

Artechouse und die Revolution der Kunst durch Künstliche Intelligenz: KI, Kunst und Technologie

Erstes Bundesland verabschiedet sich von UKW: Schleswig-Holstein setzt auf DAB+ und Streaming

Schreibe einen Kommentar Antworten abbrechen

Die besten Bücher rund um KI & Robotik

Wie eine rumänische App die christliche KI weltweit bekannt machte

Adobe bringt KI-Bildgenerierung auf Smartphones

Apples Siri-Update: KI-Verbesserungen erst 2026 erwartet

Die besten KI-Gadgets auf Amazon

Sophos X-Ops: Wie Kriminelle KI nutzen – und was Unternehmen tun können

Sicherheitsbedenken bei Pakistans Beitritt zu KI-Allianz

Berliner Datenschutzbehörde untersucht KI-Nutzung bei Immobilienplattformen

Lufthansa nutzt KI zur Reduzierung von Lebensmittelabfällen

OpenAI verliert Exklusivität bei Übernahme von KI-Startup Windsurf

Wie das Gehirn 2D-Bilder in 3D-Modelle umwandelt: Ein Blick auf inverse Grafikprozesse

Fehlerhafte KI-Nutzung führt zu Sanktionen gegen MyPillow-Gründer

Studie zeigt: KI verlangsamt erfahrene Entwickler