<strong>MÜNCHEN (IT BOLTWISE) – MosaicML, mitbegründet von einem MIT-Absolventen und einem Professor, hat Deep-Learning-Modelle schneller und effizienter gemacht. Die Übernahme durch Databricks hat diese Mission erweitert.</strong>
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
MosaicML begann mit der Mission, KI-Modelle zugänglicher zu machen. Das Unternehmen, das von Jonathan Frankle (PhD ’23) und dem MIT-Professor Michael Carbin mitbegründet wurde, entwickelte eine Plattform, mit der Benutzer Open-Source-Modelle mit eigenen Daten trainieren, verbessern und überwachen können. Das Unternehmen baute auch eigene Open-Source-Modelle mit grafischen Verarbeitungseinheiten (GPUs) von NVIDIA.
Dieser Ansatz machte Deep Learning, ein damals noch junges Feld, für weit mehr Organisationen zugänglich. Die Begeisterung um generative KI und große Sprachmodelle (LLMs) stieg nach der Veröffentlichung von Chat GPT-3.5 enorm an. MosaicML wurde somit zu einem wichtigen Tool für Datenmanagementunternehmen, die Organisationen dabei unterstützen, ihre Daten zu nutzen, ohne sie an KI-Unternehmen abzugeben.
Im letzten Jahr führte diese Strategie zur Übernahme von MosaicML durch Databricks, ein globales Unternehmen für Datenspeicherung, Analytik und KI, das mit einigen der größten Organisationen der Welt zusammenarbeitet. Seit der Übernahme haben die kombinierten Unternehmen eines der leistungsfähigsten Open-Source-LLMs entwickelt, das je gebaut wurde. Bekannt als DBRX, hat dieses Modell neue Maßstäbe in Aufgaben wie Leseverständnis, allgemeine Wissensfragen und Logikrätseln gesetzt.
Seitdem hat sich DBRX den Ruf erworben, eines der schnellsten verfügbaren Open-Source-LLMs zu sein und hat sich besonders in großen Unternehmen als nützlich erwiesen.
Frankle betont jedoch, dass das Modell vor allem deshalb bedeutsam ist, weil es mit den Werkzeugen von Databricks gebaut wurde. Dadurch können alle Kunden des Unternehmens ähnliche Leistungen mit ihren eigenen Modellen erzielen, was die Auswirkungen der generativen KI beschleunigen wird.
„Es ist einfach aufregend zu sehen, was die Community damit anstellt“, sagt Frankle. „Für mich als Wissenschaftler ist das der beste Teil. Es geht nicht nur um das Modell, sondern um all die erstaunlichen Dinge, die die Community damit macht. Dort passiert die Magie.“
Effiziente Algorithmen entwickeln
Frankle erwarb Bachelor- und Masterabschlüsse in Informatik an der Princeton University, bevor er 2016 an das MIT kam, um seinen PhD zu verfolgen. Anfangs war er unsicher, welches Gebiet der Informatik er studieren wollte. Seine letztendliche Wahl sollte sein Leben verändern.
Frankle entschied sich, sich auf eine Form der Künstlichen Intelligenz namens Deep Learning zu konzentrieren. Damals weckte Deep Learning und Künstliche Intelligenz nicht dieselbe breite Begeisterung wie heute. Deep Learning war ein Jahrzehnte altes Studiengebiet, das bisher wenig Früchte getragen hatte.
„Ich glaube nicht, dass damals jemand damit gerechnet hat, dass Deep Learning so explodieren würde, wie es tat“, sagt Frankle. „Menschen, die sich auskannten, fanden es interessant und es gab viele ungelöste Probleme, aber Begriffe wie großes Sprachmodell (LLM) und generative KI wurden damals kaum verwendet. Es waren die frühen Tage.“
Mit der Veröffentlichung eines berüchtigten Papiers von Google-Forschern im Jahr 2017, in dem sie zeigten, dass eine neue Deep-Learning-Architektur namens Transformer überraschend effektiv bei der Sprachübersetzung war und vielversprechend für andere Anwendungen wie die Inhaltserstellung erschien, begannen die Dinge spannend zu werden.
Im Jahr 2020 erhielt Frankle eine E-Mail von Naveen Rao, einem zukünftigen Mitbegründer und Technologie-Manager. Rao hatte ein Papier gelesen, das Frankle und Carbin gemeinsam verfasst hatten und das eine Methode zeigte, Deep-Learning-Modelle zu verkleinern, ohne die Leistung zu beeinträchtigen. Rao schlug dem Paar vor, ein Unternehmen zu gründen. Sie wurden von Hanlin Tang unterstützt, der zuvor mit Rao an einem früheren KI-Startup gearbeitet hatte, das von Intel übernommen worden war.
Die Gründer begannen damit, verschiedene Techniken zu untersuchen, die zur Beschleunigung des Trainings von KI-Modellen verwendet wurden. Schließlich kombinierten sie mehrere dieser Techniken und zeigten, dass sie ein Modell viermal schneller als bisher trainieren konnten.
„Der Trick war, dass es keinen Trick gab“, sagt Frankle. „Wir mussten 17 verschiedene Änderungen vornehmen, um das Modell zu trainieren, um das herauszufinden. Es war ein bisschen hier und ein bisschen dort, aber das war genug, um unglaubliche Geschwindigkeitssteigerungen zu erzielen. Das ist wirklich die Geschichte von Mosaic.“
Das Team zeigte, dass ihre Techniken Modelle effizienter machen konnten und veröffentlichte 2023 ein Open-Source-LLM sowie eine Open-Source-Bibliothek ihrer Methoden. Sie entwickelten auch Visualisierungstools, mit denen Entwickler verschiedene experimentelle Optionen zum Training und Ausführen von Modellen darstellen konnten.
Der E14 Fund des MIT investierte in die Series-A-Finanzierungsrunde von Mosaic, und Frankle sagt, dass das Team von E14 frühzeitig hilfreiche Ratschläge gab. Der Fortschritt von Mosaic ermöglichte es einer neuen Klasse von Unternehmen, ihre eigenen generativen KI-Modelle zu trainieren.
„Es gab einen Demokratisierungs- und Open-Source-Aspekt in der Mission von Mosaic“, sagt Frankle. „Das war mir immer sehr wichtig. Seit ich Doktorand war und keine GPUs hatte, weil ich nicht in einem Machine-Learning-Labor war und all meine Freunde GPUs hatten. Ich empfinde immer noch so. Warum können wir nicht alle teilnehmen? Warum können wir nicht alle diese Dinge tun und Wissenschaft betreiben?“
Innovation durch Open Source
Databricks hat ebenfalls daran gearbeitet, seinen Kunden Zugang zu KI-Modellen zu verschaffen. Das Unternehmen schloss 2023 die Übernahme von MosaicML für angeblich 1,3 Milliarden US-Dollar ab.
„Bei Databricks sahen wir ein Gründerteam von Akademikern wie uns“, sagt Frankle. „Wir sahen auch ein Team von Wissenschaftlern, die Technologie verstehen. Databricks hat die Daten, wir haben das maschinelle Lernen. Man kann das eine ohne das andere nicht machen und umgekehrt. Es war einfach eine wirklich gute Übereinstimmung.“
Im März veröffentlichte Databricks DBRX, das der Open-Source-Community und Unternehmen, die ihre eigenen LLMs entwickeln, Fähigkeiten bietet, die zuvor auf geschlossene Modelle beschränkt waren.
„DBRX zeigt, dass man das beste Open-Source-LLM der Welt mit Databricks bauen kann“, sagt Frankle. „Wenn du ein Unternehmen bist, sind dir heute keine Grenzen gesetzt.“
Frankle sagt, dass das Team von Databricks ermutigt wurde, DBRX intern für eine Vielzahl von Aufgaben zu nutzen.
„Es ist bereits großartig, und mit ein wenig Feintuning ist es besser als die geschlossenen Modelle“, sagt er. „Du wirst nicht für alles besser sein als GPT. So funktioniert das nicht. Aber niemand will jedes Problem lösen. Jeder will ein Problem lösen. Und wir können dieses Modell anpassen, um es wirklich großartig für spezifische Szenarien zu machen.“
Während Databricks weiterhin die Grenzen der KI verschiebt und Konkurrenten weiterhin enorme Summen in die KI investieren, hofft Frankle, dass die Branche Open Source als den besten Weg nach vorne sieht.
„Ich glaube an die Wissenschaft und ich glaube an den Fortschritt und ich bin begeistert, dass wir als Feld gerade so spannende Wissenschaft betreiben“, sagt Frankle. „Ich glaube auch an Offenheit und hoffe, dass jeder Offenheit so annimmt wie wir. So sind wir hierhergekommen, durch gute Wissenschaft und gutes Teilen.“
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.