NEW YORK / MÜNCHEN (IT BOLTWISE) – Eine neue Studie von Apple-Ingenieuren offenbart tiefgreifende Schwächen in den nachgesagten “Denkfähigkeiten” großer Sprachmodelle, insbesondere bei mathematischen Aufgaben.



Seit einiger Zeit präsentieren Unternehmen wie OpenAI und Google die fortgeschrittenen “Denkfähigkeiten” ihrer Künstlichen Intelligenz als nächste große Entwicklung. Eine neue Studie von sechs Apple-Ingenieuren zeigt jedoch, dass diese mathematischen “Denkfähigkeiten” bei großen Sprachmodellen (LLMs) sehr fragil und unzuverlässig sein können, besonders bei geringfügigen Änderungen an gängigen Testproblemen.

Die Ergebnisse dieser Forschung unterstützen frühere Studien, die darauf hindeuten, dass LLMs lediglich auf probabilistische Mustererkennung setzen, ohne die notwendigen formalen Konzepte zu verstehen. “Aktuelle LLMs sind nicht zu echtem logischen Denken fähig”, so die Hypothese der Forscher. “Sie versuchen vielmehr, die in ihren Trainingsdaten beobachteten Denkprozesse nachzuahmen.”

Die Studie mit dem Titel “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”, die derzeit als Preprint verfügbar ist, basiert auf GSM8K, einem standardisierten Test mit über 8.000 mathematischen Textaufgaben auf Grundschulniveau. Diese Probleme dienen oft als Benchmark für die Denkfähigkeiten moderner LLMs. Die Forscher verfolgten einen neuen Ansatz, indem sie einen Teil dieses Testsets dynamisch modifizierten und bestimmte Namen und Zahlen durch neue Werte ersetzten. Zum Beispiel könnte eine Aufgabe über Sophie, die 31 Bausteine für ihren Neffen kauft, in der neuen GSM-Symbolic-Evaluierung zu einer Aufgabe über Bill werden, der 19 Bausteine für seinen Bruder kauft.

Diese Veränderungen sollten keine signifikante Auswirkung auf die Schwierigkeit der mathematischen Probleme haben. Doch die Ergebnisse waren überraschend: Alle getesteten LLMs, insgesamt mehr als 20, zeigten eine reduzierte Genauigkeit, wenn sie auf GSM-Symbolic getestet wurden. Die Leistung sank je nach Modell zwischen 0,3 und 9,2 Prozent im Vergleich zu den Ergebnissen auf GSM8K. Besonders auffällig waren die großen Leistungsschwankungen innerhalb eines Modells, wenn die Tests mit verschiedenen Namen und Werten wiederholt wurden. In manchen Fällen betrugen die Unterschiede zwischen den besten und schlechtesten Ergebnissen innerhalb eines Modells bis zu 15 Prozent.

Diese Varianz deutet laut den Forschern darauf hin, dass die Modelle kein formales logisches Denken vollziehen. Stattdessen versuchen sie, bekannte Muster aus ihren Trainingsdaten auf neue Probleme anzuwenden, was zu unzuverlässigen Ergebnissen führt.

Noch drastischer wurden die Unterschiede bei Tests mit der sogenannten “GSM-NoOp”-Benchmark. In dieser Variante wurden scheinbar relevante, aber letztlich unwesentliche Informationen zu den Aufgaben hinzugefügt. Eine Aufgabe, bei der es darum ging, wie viele Kiwis jemand an verschiedenen Tagen pflückt, wurde zum Beispiel durch den Hinweis ergänzt, dass “fünf der Kiwis etwas kleiner als der Durchschnitt” waren. Diese irrelevanten Zusatzinformationen führten bei vielen Modellen zu katastrophalen Leistungseinbrüchen von bis zu 65,7 Prozent.

Die Forscher erklären diesen Leistungsabfall damit, dass die KI-Modelle ähnliche Beispiele in ihren Trainingsdaten gesehen haben, bei denen die hinzugefügten Informationen relevant waren. Dies führte dazu, dass die Modelle versuchten, die kleinen Kiwis von der Gesamtzahl abzuziehen, obwohl dies in diesem Fall nicht notwendig war. Dieser Fehler offenbart laut den Forschern tiefere Probleme im Denkprozess der Modelle, die nicht allein durch Feinabstimmung behoben werden können.

Die Ergebnisse dieser neuen Studie zeigen erneut, wie brüchig die Fähigkeiten moderner LLMs sein können, wenn sie mit unerwarteten Änderungen in den Aufgabenstellungen konfrontiert werden. Trotz ihrer beeindruckenden Leistung in vielen Bereichen, fehlt es diesen Modellen an der Fähigkeit, echtes logisches Verständnis zu entwickeln. Stattdessen agieren sie oft auf der Basis von Mustererkennung, die bei Abweichungen vom Bekannten zusammenbricht.

Zu den Top-Stories!

Amazon-Trendangebote der letzten 24 Stunden mit bis zu 78% Rabatt (Sponsored)

Angebot
EIlik - Ein Desktop-Begleitroboter mit emotionaler Intelligenz, Multi-Roboter-Interaktionen, Desktop-Robotik-Partner
1.840 Bewertungen
EIlik - Ein Desktop-Begleitroboter mit emotionaler Intelligenz, Multi-Roboter-Interaktionen, Desktop-Robotik-Partner
  • NIEDLICHER BEGLEITER: Eilik ist der ideale Begleiter für Kinder und Erwachsene, die Haustiere, Spiele und intelligente Roboter lieben. Mit vielen Emotionen, Bewegungen und interaktiven Funktionen.

Bezahlte Produktplatzierung


Unseren KI-Morning-Newsletter «Der KI News Espresso» mit den besten KI-News des letzten Tages gratis per eMail - ohne Werbung: Hier kostenlos eintragen!
Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf
Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf (Foto: DALL-E, IT BOLTWISE)

Folgen Sie aktuelle Beiträge über KI & Robotik auf Twitter, Telegram, Facebook oder LinkedIn!
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. IT BOLTWISE® schließt jegliche Regressansprüche aus.








Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht
49 Bewertungen
Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht
  • Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird
Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
124 Bewertungen
Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
  • Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut
KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)
69 Bewertungen
KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)
  • Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein
Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition
40 Bewertungen
Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition
  • Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf".
Stichwörter Apple ChatGPT Gpt-4 Großes Sprachmodell GSM-Symbolic KI Künstliche Intelligenz Llm Mathematisches Denken OpenAI
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
Telegram
LinkedIn
Facebook
Twitter
Instagram
#Podcast
YouTube
Spotify
Apple
#Werbung
Shirts
Roboter
Home
Bücher
AI Jobs
Spielzeug
Games
Kinder
Audio

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf" für unsere Leser?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

  • Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)


  • Es werden alle Kommentare moderiert!

    Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

    Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

    Du willst nichts verpassen?

    Du möchtest über ähnliche News und Beiträge wie "Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.

    526 Leser gerade online auf IT BOLTWISE®