MÜNCHEN (IT BOLTWISE) – Alibaba hat mit den neuen Modellen Qwen with Questions (QwQ) und Marco-o1 bedeutende Fortschritte in der Entwicklung logischer Problemlösungsfähigkeiten bei KI erzielt. Beide Modelle setzen auf innovative Ansätze wie Inferenz-Zeitskalierung und Monte Carlo Tree Search (MCTS), um die Grenzen der künstlichen Intelligenz zu erweitern.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Alibaba hat mit QwQ einen offenen Reasoning-Ansatz eingeführt, der speziell für logische Aufgaben wie Mathematik, Programmierung und wissenschaftliches Denken optimiert ist. Mit 32 Milliarden Parametern und einem Kontext von 32.000 Tokens schlägt das Modell die OpenAI-Referenz o1-preview auf Benchmarks wie AIME und GPQA. Sein offener Quellcode unter Apache 2.0-Lizenz ermöglicht zudem kommerzielle Nutzung.
Parallel dazu bringt Marco-o1 eine feiner abgestimmte Lösung für offene und komplexe Probleme. Das Modell nutzt Ketten-Gedanken-Feinabstimmung (CoT) und MCTS, um mehrdimensionale Lösungswege zu erkunden. Ein Reflexionsmechanismus erlaubt es Marco-o1, seine Entscheidungen regelmäßig zu hinterfragen, was die Genauigkeit erhöht und Fehlinterpretationen reduziert.
Beide Modelle spiegeln den Trend zu sogenannten Large Reasoning Models (LRMs) wider. Während klassische Modelle oft an der Skalierung von Daten und Parametern scheitern, setzen LRMs auf Inferenz-Zeitskalierung, um durch mehr Rechenzyklen während der Inferenz zu präziseren Ergebnissen zu gelangen.
Marco-o1 hat sich insbesondere in mehrsprachigen Szenarien bewährt. Tests zeigten, dass das Modell 6,17 % besser auf englischen und 5,60 % besser auf chinesischen Benchmarks abschneidet. Die Fähigkeit, kulturelle Nuancen in Übersetzungen zu berücksichtigen, zeigt das Potenzial für breit gefächerte Anwendungen – von Produktdesign bis hin zu strategischer Planung.
Die Weiterentwicklung der Modelle ist noch nicht abgeschlossen. Alibaba plant, Marco-o1 mit Belohnungsmodellen wie Outcome Reward Modeling (ORM) und Process Reward Modeling (PRM) zu ergänzen, um Entscheidungen weiter zu verfeinern. Zusätzlich werden verstärkendes Lernen und erweiterte Datenintegration untersucht.
Die beiden Modelle und ihre Trainingsdaten stehen Forschern auf Plattformen wie Hugging Face und GitHub zur Verfügung. Diese Offenheit unterstreicht die Zielsetzung Alibabas, die Entwicklung in der KI-Forschung voranzutreiben und die Community mit innovativen Werkzeugen auszustatten.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.