Apple-Studie zeigt Schwächen in der "Denkfähigkeit" großer KI-Modelle auf

NEW YORK / MÜNCHEN (IT BOLTWISE) – Eine neue Studie von Apple-Ingenieuren offenbart tiefgreifende Schwächen in den nachgesagten “Denkfähigkeiten” großer Sprachmodelle, insbesondere bei mathematischen Aufgaben.

Die besten Bücher rund um KI & Robotik präsentiert von Amazon!
Unsere täglichen KI-News von IT Boltwise® bei LinkedIn abonnieren!
KI-Meldungen bequem via Telegram oder per Newsletter erhalten!
IT Boltwise® bei Facy oder Insta als Fan markieren und abonnieren!
AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
RSS-Feed 2.0 von IT Boltwise® für KI-News speichern!

Seit einiger Zeit präsentieren Unternehmen wie OpenAI und Google die fortgeschrittenen “Denkfähigkeiten” ihrer Künstlichen Intelligenz als nächste große Entwicklung. Eine neue Studie von sechs Apple-Ingenieuren zeigt jedoch, dass diese mathematischen “Denkfähigkeiten” bei großen Sprachmodellen (LLMs) sehr fragil und unzuverlässig sein können, besonders bei geringfügigen Änderungen an gängigen Testproblemen.

Die Ergebnisse dieser Forschung unterstützen frühere Studien, die darauf hindeuten, dass LLMs lediglich auf probabilistische Mustererkennung setzen, ohne die notwendigen formalen Konzepte zu verstehen. “Aktuelle LLMs sind nicht zu echtem logischen Denken fähig”, so die Hypothese der Forscher. “Sie versuchen vielmehr, die in ihren Trainingsdaten beobachteten Denkprozesse nachzuahmen.”

Die Studie mit dem Titel “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”, die derzeit als Preprint verfügbar ist, basiert auf GSM8K, einem standardisierten Test mit über 8.000 mathematischen Textaufgaben auf Grundschulniveau. Diese Probleme dienen oft als Benchmark für die Denkfähigkeiten moderner LLMs. Die Forscher verfolgten einen neuen Ansatz, indem sie einen Teil dieses Testsets dynamisch modifizierten und bestimmte Namen und Zahlen durch neue Werte ersetzten. Zum Beispiel könnte eine Aufgabe über Sophie, die 31 Bausteine für ihren Neffen kauft, in der neuen GSM-Symbolic-Evaluierung zu einer Aufgabe über Bill werden, der 19 Bausteine für seinen Bruder kauft.

Diese Veränderungen sollten keine signifikante Auswirkung auf die Schwierigkeit der mathematischen Probleme haben. Doch die Ergebnisse waren überraschend: Alle getesteten LLMs, insgesamt mehr als 20, zeigten eine reduzierte Genauigkeit, wenn sie auf GSM-Symbolic getestet wurden. Die Leistung sank je nach Modell zwischen 0,3 und 9,2 Prozent im Vergleich zu den Ergebnissen auf GSM8K. Besonders auffällig waren die großen Leistungsschwankungen innerhalb eines Modells, wenn die Tests mit verschiedenen Namen und Werten wiederholt wurden. In manchen Fällen betrugen die Unterschiede zwischen den besten und schlechtesten Ergebnissen innerhalb eines Modells bis zu 15 Prozent.

Diese Varianz deutet laut den Forschern darauf hin, dass die Modelle kein formales logisches Denken vollziehen. Stattdessen versuchen sie, bekannte Muster aus ihren Trainingsdaten auf neue Probleme anzuwenden, was zu unzuverlässigen Ergebnissen führt.

Noch drastischer wurden die Unterschiede bei Tests mit der sogenannten “GSM-NoOp”-Benchmark. In dieser Variante wurden scheinbar relevante, aber letztlich unwesentliche Informationen zu den Aufgaben hinzugefügt. Eine Aufgabe, bei der es darum ging, wie viele Kiwis jemand an verschiedenen Tagen pflückt, wurde zum Beispiel durch den Hinweis ergänzt, dass “fünf der Kiwis etwas kleiner als der Durchschnitt” waren. Diese irrelevanten Zusatzinformationen führten bei vielen Modellen zu katastrophalen Leistungseinbrüchen von bis zu 65,7 Prozent.

Die Forscher erklären diesen Leistungsabfall damit, dass die KI-Modelle ähnliche Beispiele in ihren Trainingsdaten gesehen haben, bei denen die hinzugefügten Informationen relevant waren. Dies führte dazu, dass die Modelle versuchten, die kleinen Kiwis von der Gesamtzahl abzuziehen, obwohl dies in diesem Fall nicht notwendig war. Dieser Fehler offenbart laut den Forschern tiefere Probleme im Denkprozess der Modelle, die nicht allein durch Feinabstimmung behoben werden können.

Die Ergebnisse dieser neuen Studie zeigen erneut, wie brüchig die Fähigkeiten moderner LLMs sein können, wenn sie mit unerwarteten Änderungen in den Aufgabenstellungen konfrontiert werden. Trotz ihrer beeindruckenden Leistung in vielen Bereichen, fehlt es diesen Modellen an der Fähigkeit, echtes logisches Verständnis zu entwickeln. Stattdessen agieren sie oft auf der Basis von Mustererkennung, die bei Abweichungen vom Bekannten zusammenbricht.

Zu den Top-Stories!

Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf (Foto: DALL-E, IT BOLTWISE)

Folgen Sie uns

Tweet #itboltwise

Stellenangebote

KI-Online-Marketing Manager (m/w/d) Jetzt kostenlos im Quereinstieg durchstarten!

Match4Solutions GmbH

Lostau

Werde KI / IT-Profi (m/w/d) Quereinstieg in Vollzeit, live online und komplett kostenlos!

Match4Solutions GmbH

Recklinghausen

Webentwickler für moderne KI-Anwendungen (m/w/d)

Würth IT GmbH

Künzelsau-Gaisbach bei Heilbronn

Folgen Sie aktuellen Beiträge über KI & Robotik auf Twitter, Telegram, Facebook oder LinkedIn!

Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. IT BOLTWISE® schließt jegliche Regressansprüche aus.

Diesen Artikel kommentieren

71 Bewertungen

Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht

Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird

136 Bewertungen

Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«

Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut

71 Bewertungen

KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)

Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein

47 Bewertungen

Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition

Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf".

Stichwörter Apple ChatGPT Gpt-4 Großes Sprachmodell GSM-Symbolic KI Künstliche Intelligenz Llm Mathematisches Denken OpenAI

Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!

Nächster Artikel

Lightmatter erreicht Bewertung von 4,4 Mrd. USD dank Photonic Computing für KI

22. Oktober 2024

Vorheriger Artikel

OpenAI enthüllt MLE-bench und Swarm: Neue Standards für KI-Automatisierung

22. Oktober 2024

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf" für unsere Leser?

Schreibe einen Kommentar Antworten abbrechen

Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)

Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Du möchtest über ähnliche News und Beiträge wie "Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.

Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf« bei Google Deutschland suchen, bei Bing oder Google News!

163 Leser gerade online auf IT BOLTWISE®

KI-Schutz gegen Hacker #Sophos

Meta: Millionen-Dollar-Angebot per Whatsapp – Zuckerberg lockt KI-Spezialisten

Der Facebook-Konzern muss bei Künstlicher Intelligenz aufholen. Mark Zuckerberg macht die Rekrutierung von Spezialisten zur Chefsache – und setzt dabei auf ungewöhnlich lukrative Angebote.
Start-up: KI-Agenten zum Selbstbauen: Synthflow sammelt 20 Millionen US-Dollar ein

Mit der Plattform des Start-ups können Unternehmen eigene KI-Agenten bauen. Die junge Firma mit nun 1000 Kunden in dem Wachstumssegment konnte einen namhaften US-Investor für sich gewinnen.
Start-up: KI-Firma Parloa will Weltmarktführer im Kundendienst werden

Parloa ist nach einer neuen Finanzierungsrunde das zweite deutsche Einhorn 2025. Die weiteren Pläne der Gründer sind ambitioniert, Investoren bewerten sie aber als realistisch.
Software-Konzern: Microsoft streicht wieder Tausende Arbeitsplätze

Microsoft steckt viele Milliarden in Künstliche Intelligenz. Zugleich baut der Softwarekonzern in kurzem Abstand schon wieder mehrere Tausend Jobs ab.
Finanzierungsrunde : Drohnen-Start-up Quantum Systems wird zu Deutschlands erstem Einhorn 2025

Quantum Systems sammelt 160 Millionen Euro bei Investoren ein und steigert seine Bewertung auf über eine Milliarde. Unter den Geldgebern sind die Rüstungskonzerne Hensoldt und Airbus.
Online-Terminvergabe: Datenschutz auf dem Prüfstand

Datenschützer warnen vor Risiken bei Terminbuchungen über Plattformen wie Doctolib oder Jameda. Sie fordern strenge Regeln – und erinnern Praxen wie Onlineplattformen an ihre Pflichten.
Künstliche Intelligenz : So erstellen Sie mit ChatGPT Ihren eigenen Berater

KI-Assistenten sind am Arbeitsplatz beliebt. ChatGPT-Experte Sebastian Hennes erklärt, wie Sie aus dem Tool einen stets verfügbaren persönlichen Coach machen.
KI-Briefing: So verdient der Facebook-Konzern Meta an Deepfakes

Eine neue Betrugsmasche trifft Influencer, bei einer Start-up-Hoffnung herrscht plötzlich eine Schlammschlacht, und die Bundeswehr will ferngesteuerte Kakerlaken testen. Die KI-News der Woche.
Chip-Technologie: Durchleuchtet bis ins Atom: Nexperia will gemeinsam mit DESY Chipdefekte beheben

Der Halbleiterkonzern und das Forschungszentrum wollen gemeinsam Stromsparchips aus Siliziumkarbid zuverlässiger machen. Eine deutsche Schlüsselbranche könnte profitieren.
Chipsoftware: China-Exportbeschränkungen für Siemens-Technologie aufgehoben

Das US-Handelsministerium hatte im Mai verlangt, keine Chipsoftware mehr an chinesische Unternehmen zu liefern. Nun nehmen die USA diese Vorgabe zurück.

#1 Fachmagazin in Deutschland mit Fokus auf Künstliche Intelligenz und Robotik

Apple-Studie zeigt Schwächen in der “Denkfähigkeit” großer KI-Modelle auf

Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell

Bauprojektleiter Technische Gebäudeausrüstung (TGA) für KI- Rechenzentrumprojekte (m/w/d); HN oder B

IT Support mit KI (m/w/d) – Quereinsteiger willkommen

Stellenangebote

Stellenangebote

KI-Sachbearbeiter (m/w/d) – Quereinsteiger herzlich willkommen!

IT Support mit KI (m/w/d) – Quereinsteiger willkommen

Vertriebsprofi (m/w/d) für KI-basierte Softwarelösungen in der Autohausbranche

KI-Online-Marketing Manager (m/w/d) Jetzt kostenlos im Quereinstieg durchstarten!

Werde KI / IT-Profi (m/w/d) Quereinstieg in Vollzeit, live online und komplett kostenlos!

Webentwickler für moderne KI-Anwendungen (m/w/d)

Aktuelle News über «Künstliche Intelligenz» automatisch per eMail erhalten

Lightmatter erreicht Bewertung von 4,4 Mrd. USD dank Photonic Computing für KI

OpenAI enthüllt MLE-bench und Swarm: Neue Standards für KI-Automatisierung

Schreibe einen Kommentar Antworten abbrechen

Die besten Bücher rund um KI & Robotik

Wie eine rumänische App die christliche KI weltweit bekannt machte

Adobe bringt KI-Bildgenerierung auf Smartphones

Apples Siri-Update: KI-Verbesserungen erst 2026 erwartet

Die besten KI-Gadgets auf Amazon

Sophos X-Ops: Wie Kriminelle KI nutzen – und was Unternehmen tun können

Pioneer AI Foundry startet innovatives Anleiheprogramm zur KI-Finanzierung

Hived sichert sich 42 Millionen Dollar für KI-gestützten Paketdienst

Amazon setzt auf KI-gestützte Robotik für effizientere Logistik

Cloudflare blockiert KI-Crawler: Neue Schutzmaßnahmen für Webseitenbetreiber

Microsoft investiert in KI und streicht 9.000 Stellen

Onco-Innovations treibt KI-gestützte Krebsforschung voran

KI-gestützte Technologie verbessert die Präzision in der Strahlentherapie