MÜNCHEN (IT BOLTWISE) – Cerebras Systems hat einen bedeutenden Schritt in der KI-Entwicklung gemacht, indem es einen neuen KI-Inferenzdienst angekündigt hat, der sich durch eine außergewöhnliche Geschwindigkeit und Kosteneffizienz auszeichnet.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Cerebras Systems hat mit der Einführung seines neuen KI-Inferenzdienstes einen bahnbrechenden Fortschritt im Bereich der Künstlichen Intelligenz gemacht. Die neue Lösung nutzt die Wafer Scale Engine-3 (WSE-3) von Cerebras, den weltweit größten KI-Prozessor, um die Inferenzgeschwindigkeit deutlich zu erhöhen und gleichzeitig die Kosten drastisch zu senken. Der Dienst ist speziell darauf ausgelegt, Metas LLaMA 3.1-Modelle mit beeindruckenden Geschwindigkeiten auszuführen—bis zu 1.800 Tokens pro Sekunde für das 8B-Modell und 450 Tokens pro Sekunde für das 70B-Modell, was 20-mal schneller ist als aktuelle GPU-basierte Lösungen von NVIDIA.
Die Leistungsfähigkeit von Cerebras‘ WSE-3 ermöglicht es, das gesamte Modell direkt auf dem Chip zu speichern, wodurch Speicherengpässe, die bei GPUs auftreten, vermieden werden. Mit einer Speicherdurchsatzrate von 21 Petabyte pro Sekunde übertrifft die WSE-3 die Kapazitäten der fortschrittlichsten GPUs deutlich. Diese Architektur erlaubt nicht nur eine drastische Steigerung der Verarbeitungsgeschwindigkeit, sondern auch eine erhebliche Kostensenkung, was das System sowohl für Entwickler als auch für Unternehmen äußerst attraktiv macht.
Cerebras‘ CEO Andrew Feldman vergleicht den technologischen Sprung mit dem Übergang von einem Modem zu Breitband-Internet. „Diese Geschwindigkeit transformiert KI-Anwendungen, ermöglicht Echtzeitverarbeitung und eröffnet neue Möglichkeiten für KI-gesteuerte Innovationen,“ sagte Feldman.
Zusätzlich zu der herausragenden Geschwindigkeit bietet der Dienst von Cerebras volle 16-Bit-Genauigkeit, was die Integrität der ursprünglichen Modelle bewahrt, während die Kosten für KI-Operationen erheblich gesenkt werden. Entwickler können die Leistung des Systems für nur 10 Cent pro Million Tokens für das 8B-Modell und 60 Cent für das 70B-Modell nutzen, ein Bruchteil der Kosten traditioneller Hyperscaler-Optionen.
Das innovative Design der WSE-3 ermöglicht die Integration von bis zu 900.000 Kernen auf einem einzigen Wafer, wodurch externe Verkabelungen zwischen separaten Chips überflüssig werden. Jeder Kern agiert als eigenständige Einheit, die sowohl Rechenleistung als auch Speicher integriert. Diese Struktur ermöglicht eine schnellere Datenverarbeitung und -zugriff, was insbesondere bei komplexen und zeitkritischen Aufgaben wie der Sprachverarbeitung von Vorteil ist.
Trotz der bahnbrechenden Technologie steht Cerebras vor Herausforderungen in einem Markt, der von etablierten Spielern wie NVIDIA dominiert wird. NVIDIA hat sich durch CUDA, eine weit verbreitete Parallel-Computing-Plattform, einen starken Vorteil gesichert, der ein robustes Ökosystem um seine GPUs geschaffen hat. Um den Übergang zu erleichtern, unterstützt Cerebras jedoch hochrangige Frameworks wie PyTorch und bietet ein eigenes Software Development Kit (SDK) an.
Cerebras‘ neuer Inferenzdienst wird über eine API auf der firmeneigenen Cloud angeboten, was den Zugang für Unternehmen erleichtert, ohne dass bestehende Infrastrukturen überholt werden müssen. Das Unternehmen plant, sein Angebot bald auf das größere LLaMA 405B-Modell und Modelle von Mistral und Cohere zu erweitern, was seine Position im KI-Markt weiter festigen könnte.
Trotz der vielversprechenden Technologie mahnen Experten wie Jack Gold von J.Gold Associates zur Vorsicht. Er betont, dass es noch zu früh sei, um den tatsächlichen Vorteil von Cerebras zu bewerten, bis weitere konkrete Benchmarks und reale Anwendungen vorliegen.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.