Apple-Studie zeigt Schwächen in der "Denkfähigkeit" großer KI-Modelle auf - IT BOLTWISE® x Artificial Intelligence

NEW YORK / MÜNCHEN (IT BOLTWISE) – Eine neue Studie von Apple-Ingenieuren offenbart tiefgreifende Schwächen in den nachgesagten „Denkfähigkeiten“ großer Sprachmodelle, insbesondere bei mathematischen Aufgaben.



Seit einiger Zeit präsentieren Unternehmen wie OpenAI und Google die fortgeschrittenen „Denkfähigkeiten“ ihrer Künstlichen Intelligenz als nächste große Entwicklung. Eine neue Studie von sechs Apple-Ingenieuren zeigt jedoch, dass diese mathematischen „Denkfähigkeiten“ bei großen Sprachmodellen (LLMs) sehr fragil und unzuverlässig sein können, besonders bei geringfügigen Änderungen an gängigen Testproblemen.

Die Ergebnisse dieser Forschung unterstützen frühere Studien, die darauf hindeuten, dass LLMs lediglich auf probabilistische Mustererkennung setzen, ohne die notwendigen formalen Konzepte zu verstehen. „Aktuelle LLMs sind nicht zu echtem logischen Denken fähig“, so die Hypothese der Forscher. „Sie versuchen vielmehr, die in ihren Trainingsdaten beobachteten Denkprozesse nachzuahmen.“

Die Studie mit dem Titel „GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models“, die derzeit als Preprint verfügbar ist, basiert auf GSM8K, einem standardisierten Test mit über 8.000 mathematischen Textaufgaben auf Grundschulniveau. Diese Probleme dienen oft als Benchmark für die Denkfähigkeiten moderner LLMs. Die Forscher verfolgten einen neuen Ansatz, indem sie einen Teil dieses Testsets dynamisch modifizierten und bestimmte Namen und Zahlen durch neue Werte ersetzten. Zum Beispiel könnte eine Aufgabe über Sophie, die 31 Bausteine für ihren Neffen kauft, in der neuen GSM-Symbolic-Evaluierung zu einer Aufgabe über Bill werden, der 19 Bausteine für seinen Bruder kauft.

Diese Veränderungen sollten keine signifikante Auswirkung auf die Schwierigkeit der mathematischen Probleme haben. Doch die Ergebnisse waren überraschend: Alle getesteten LLMs, insgesamt mehr als 20, zeigten eine reduzierte Genauigkeit, wenn sie auf GSM-Symbolic getestet wurden. Die Leistung sank je nach Modell zwischen 0,3 und 9,2 Prozent im Vergleich zu den Ergebnissen auf GSM8K. Besonders auffällig waren die großen Leistungsschwankungen innerhalb eines Modells, wenn die Tests mit verschiedenen Namen und Werten wiederholt wurden. In manchen Fällen betrugen die Unterschiede zwischen den besten und schlechtesten Ergebnissen innerhalb eines Modells bis zu 15 Prozent.

Diese Varianz deutet laut den Forschern darauf hin, dass die Modelle kein formales logisches Denken vollziehen. Stattdessen versuchen sie, bekannte Muster aus ihren Trainingsdaten auf neue Probleme anzuwenden, was zu unzuverlässigen Ergebnissen führt.

Noch drastischer wurden die Unterschiede bei Tests mit der sogenannten „GSM-NoOp“-Benchmark. In dieser Variante wurden scheinbar relevante, aber letztlich unwesentliche Informationen zu den Aufgaben hinzugefügt. Eine Aufgabe, bei der es darum ging, wie viele Kiwis jemand an verschiedenen Tagen pflückt, wurde zum Beispiel durch den Hinweis ergänzt, dass „fünf der Kiwis etwas kleiner als der Durchschnitt“ waren. Diese irrelevanten Zusatzinformationen führten bei vielen Modellen zu katastrophalen Leistungseinbrüchen von bis zu 65,7 Prozent.

Die Forscher erklären diesen Leistungsabfall damit, dass die KI-Modelle ähnliche Beispiele in ihren Trainingsdaten gesehen haben, bei denen die hinzugefügten Informationen relevant waren. Dies führte dazu, dass die Modelle versuchten, die kleinen Kiwis von der Gesamtzahl abzuziehen, obwohl dies in diesem Fall nicht notwendig war. Dieser Fehler offenbart laut den Forschern tiefere Probleme im Denkprozess der Modelle, die nicht allein durch Feinabstimmung behoben werden können.

Die Ergebnisse dieser neuen Studie zeigen erneut, wie brüchig die Fähigkeiten moderner LLMs sein können, wenn sie mit unerwarteten Änderungen in den Aufgabenstellungen konfrontiert werden. Trotz ihrer beeindruckenden Leistung in vielen Bereichen, fehlt es diesen Modellen an der Fähigkeit, echtes logisches Verständnis zu entwickeln. Stattdessen agieren sie oft auf der Basis von Mustererkennung, die bei Abweichungen vom Bekannten zusammenbricht.

Apple-Studie zeigt Schwächen in der „Denkfähigkeit“ großer KI-Modelle auf
Apple-Studie zeigt Schwächen in der „Denkfähigkeit“ großer KI-Modelle auf (Foto: DALL-E, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.