StripedHyena: Neue Architektur für die nächste Generation generativer KI? - IT BOLTWISE® x Artificial Intelligence

MENLO PARK / MÜNCHEN (IT BOLTWISE) – Eine Alternative zur herkömmlichen Transformator-Architektur: StripedHyena könnte die Leistungsfähigkeit und Effizienz generativer KI-Modelle revolutionieren.

Das Team von Together AI stellt mit StripedHyena eine neue Familie von Sprachmodellen vor. Das Besondere: StripedHyena nutzt eine innovative KI-Architektur, die darauf abzielt, die Leistung beim Training und bei der Inferenz im Vergleich zur weit verbreiteten Transformator-Architektur, wie sie beispielsweise in GPT-4 verwendet wird, zu verbessern.

Mit 7 Milliarden Parametern umfasst die Familie Modelle wie StripedHyena-Hessian-7B (SH 7B), ein Basis-Modell, und StripedHyena-Nous-7B (SH-N 7B), ein Chat-Modell. Diese Modelle sollen schneller, speichereffizienter sein und extrem lange Kontexte von bis zu 128.000 Token verarbeiten können. Forscher von HazyResearch, hessian.AI, Nous Research, MILA, HuggingFace und dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) waren beteiligt.

StripedHyena: eine effiziente Alternative zu Transformern – Together AI zufolge ist StripedHyena das erste Alternativmodell, das mit den besten Open-Source-Transformern konkurrieren kann. Das Basis-Modell erreicht eine vergleichbare Leistung wie Llama-2, Yi und Mistral 7B bei OpenLLM-Leaderboard-Aufgaben und übertrifft sie bei der Zusammenfassung langer Kontexte.

Das Herzstück der StripedHyena-Modelle bildet eine Zustandsraummodell (SSM)-Schicht. SSMs wurden traditionell genutzt, um komplexe Sequenzen und Zeitreihendaten zu modellieren. Sie sind besonders nützlich für Aufgaben, bei denen zeitliche Abhängigkeiten modelliert werden müssen. In den letzten zwei Jahren haben Forscher jedoch immer bessere Methoden entwickelt, SSMs für sequenzielle Sprachmodelle und andere Bereiche einzusetzen. Der Grund: Sie benötigen weniger Rechenleistung.

Das Ergebnis: StripedHyena ist mehr als 30 Prozent, 50 Prozent und 100 Prozent schneller als herkömmliche Transformer bei der End-to-End-Ausbildung von Sequenzen mit 32.000, 64.000 und 128.000 Token.

Das Hauptziel der StripedHyena-Modelle ist es, die Grenzen des architektonischen Designs über die Transformer hinaus zu erweitern. In Zukunft planen die Forscher, größere Modelle mit längeren Kontexten, Multimodal-Unterstützung, weitere Leistungsoptimierungen und die Integration von StripedHyena in Retrieval-Pipelines zu untersuchen, um den längeren Kontext voll auszunutzen.

Together AI ist ein Unternehmen, das Werkzeuge und Infrastruktur für den Aufbau und Betrieb generativer KI-Modelle bereitstellt. Sie bieten Dienste wie den Together Inference Engine, Together Custom Models und Together GPU Clusters an. Zusätzlich haben sie eine App namens togetherAI entwickelt, eine App für psychische Gesundheit und Wohlbefinden von Familien, die darauf abzielt, Eltern zu befähigen, die psychische Gesundheit ihrer Kinder besser zu verstehen und zu unterstützen. Die dezentralen Cloud-Dienste des Unternehmens ermöglichen es Entwicklern und Forschern in Organisationen jeder Größe, generative KI-Modelle zu trainieren, zu verfeinern und einzusetzen.

StripedHyena: Die neue Architektur für die nächste Generation generativer KI?
StripedHyena: Die neue Architektur für die nächste Generation generativer KI? (Foto: DALL-E, IT-Boltwise)
Hinweis: Teile dieses Textes könnten mithilfe einer Künstlichen Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.