MÜNCHEN (IT BOLTWISE) – Forschung zeigt, dass große Sprachmodelle wie GPT-4 bei realen Anwendungen scheitern können, besonders bei dynamischen Umgebungen.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Große Sprachmodelle (LLMs) wie GPT-4 oder Claude 3 Opus gelten als technische Meisterwerke, doch eine neue Studie von MIT, Harvard und Cornell stellt ihre Fähigkeit infrage, die reale Welt und ihre Regeln korrekt abzubilden. Die Wissenschaftler fanden heraus, dass diese Modelle zwar beeindruckende Ergebnisse liefern können, aber kein kohärentes Weltmodell entwickeln, das den Anforderungen dynamischer Umgebungen standhält.
Ein Beispiel: Bei der Aufgabe, Schritt-für-Schritt-Wegbeschreibungen in New York City zu geben, erzielten die Modelle zunächst eine nahezu perfekte Genauigkeit. Doch die zugrunde liegenden Karten enthielten fiktive Straßen und Routen. Sobald unvorhergesehene Änderungen wie Umleitungen oder Straßensperrungen hinzukamen, brach die Leistung ein. In einigen Fällen versagten die Modelle völlig, was ihre Einsatzfähigkeit in realen Szenarien wie dem autonomen Fahren infrage stellt.
Die Wissenschaftler untersuchten diese Schwächen mit deterministischen endlichen Automaten (DFAs), einer Klasse von Problemen mit klaren Zustandsabfolgen. Sie testeten die Fähigkeit von LLMs, Othello-Spiele oder komplexe Straßennetzwerke zu verstehen. Zwei Hauptmetriken wurden bewertet: „Sequenzbestimmung“, die prüft, ob ein Modell verschiedene Zustände desselben Systems korrekt verknüpfen kann, und „Sequenzkompression“, die zeigt, ob ein Modell ähnliche Zustände richtig zusammenfasst.
Ergebnisse zeigten, dass Modelle, die auf zufälligen Daten trainiert wurden, eine höhere Genauigkeit erreichten, da sie mehr mögliche Zustände sahen. Dennoch scheiterten alle getesteten Modelle, sobald unvorhergesehene Änderungen eingeführt wurden. „Schon das Schließen von 1 % der möglichen Straßen ließ die Genauigkeit von nahezu 100 % auf 67 % sinken“, so Keyon Vafa, Mitautor der Studie.
Die Forscher betonen, dass neue Ansätze nötig sind, um LLMs robuster für reale Anwendungen zu machen. Die aktuelle Abhängigkeit von transformatorbasierten Architekturen zeigt klare Grenzen auf. „Wir müssen sorgfältig hinterfragen, ob diese Modelle wirklich die Welt verstehen oder nur beeindruckend imitieren“, sagte Ashesh Rambachan, einer der Autoren der Studie.
Die Studie wirft ein Schlaglicht auf die Fragilität von KI-Systemen und zeigt, dass technologische Fortschritte allein nicht ausreichen, um zuverlässige Anwendungen in der realen Welt zu ermöglichen.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.