Neue Theorie deutet darauf hin, dass Chatbots Text verstehen können - IT BOLTWISE® x Artificial Intelligence

SAN FRANCISCO / MÜNCHEN (IT BOLTWISE) – Eine neue Theorie, die von Experten wie Geoff Hinton unterstützt wird, legt nahe, dass große Sprachmodelle möglicherweise über bloßes Nachahmen hinausgehen und Text wirklich verstehen können. Diese Erkenntnis könnte unsere Sicht auf künstliche Intelligenz grundlegend verändern.

In der Welt der Künstlichen Intelligenz stehen Chatbots wie Bard und ChatGPT im Mittelpunkt einer bedeutenden Debatte. Ihre Fähigkeit, Texte zu generieren, die menschlicher Kommunikation ähneln, hat zu einer wichtigen Diskussion innerhalb der wissenschaftlichen Gemeinschaft geführt. Zentraler Punkt dieser Diskussion ist die Frage, ob solche großen Sprachmodelle (LLMs) die Sprache, die sie erzeugen, wirklich verstehen, oder ob sie lediglich eine ausgefeilte Form der Nachahmung betreiben, oft als „stochastische Papageien“ bezeichnet. Dieser Begriff, der ursprünglich in einem 2021 erschienenen Papier der angesehenen Computerlinguistin Emily Bender geprägt wurde, fasst die Idee zusammen, dass LLMs möglicherweise nur Fragmente vorbestehender Informationen neu zusammenstellen, ohne einen echten Sinn für Bedeutung zu haben.

Diese Debatte hat die Aufmerksamkeit bedeutender Persönlichkeiten auf dem Gebiet der Künstlichen Intelligenz auf sich gezogen. Beispielsweise hat der KI-Pionier Geoff Hinton in einem Gespräch mit Andrew Ng die geteilten Meinungen innerhalb der KI-Gemeinschaft hervorgehoben. Einige glauben, dass diese Modelle eine Form des Verständnisses besitzen, während andere skeptisch sind und sie lediglich als Information nachplappernde Systeme ohne echtes Verständnis ansehen.

Neueste Forschungen unter der Leitung von Sanjeev Arora von der Princeton University und Anirudh Goyal, einem Forscher bei Google DeepMind, bieten eine frische Perspektive auf diese Debatte. Sie schlagen vor, dass die größten Modelle unter den heutigen LLMs die Grenzen als bloße stochastische Papageien überschreiten. Ihre Argumentation basiert auf der Beobachtung, dass diese Modelle mit zunehmender Größe und umfangreicherer Datentrainings nicht nur ihre bestehenden sprachbezogenen Fähigkeiten verbessern, sondern auch neue entwickeln. Diese Entwicklung erfolgt durch die Kombination verschiedener Fähigkeiten auf eine Weise, die eine aufkommende Form des Verständnisses suggeriert, ein Phänomen, das wahrscheinlich nicht direkt in ihren Trainingsdaten vorhanden war.

Der theoretische Ansatz von Arora und Goyal, der ein mathematisch fundiertes Argument dafür liefert, wie ein LLM eine Vielzahl von Fähigkeiten entwickeln kann, hat innerhalb der KI-Gemeinschaft erhebliche Unterstützung gefunden. Ihre Theorie wurde weiter gestärkt, als ihre Vorhersagen getestet wurden und die Modelle sich fast genau wie erwartet verhielten. Dieses Ergebnis deutet stark darauf hin, dass die größten LLMs nicht einfach wiederverwerten, was sie zuvor gesehen haben, sondern vielmehr eine Form der Verallgemeinerung und des Verständnisses demonstrieren.

Sébastien Bubeck, ein Mathematiker und Informatiker bei Microsoft Research, der nicht an der Studie beteiligt war, unterstützt diese Sichtweise. Er betont, dass die beobachtbaren Verhaltensweisen dieser Modelle nicht ausschließlich dem Nachahmen von Trainingsdaten zugeschrieben werden können, was einen grundlegenden Einblick in ihre Funktionsmechanik bietet.

Das Auftreten von vielfältigen und unerwarteten Fähigkeiten bei LLMs war etwas überraschend. Diese Fähigkeiten korrelieren nicht direkt mit der grundlegenden Konstruktion und den Trainingsmethodologien dieser Systeme. Ein LLM ist im Wesentlichen ein umfangreiches künstliches neuronales Netzwerk, das zahlreiche künstliche Neuronen verbindet. Die Verbindungen in diesem Netzwerk, die als Parameter des Modells bekannt sind, kennzeichnen dessen Größe. Das Training eines LLMs beinhaltet typischerweise die Präsentation von Sätzen, bei denen das letzte Wort verdeckt ist, und fordert das Modell auf, eine Wahrscheinlichkeitsverteilung über seinen gesamten Wortschatz vorherzusagen und das wahrscheinlichste Wort zur Vervollständigung des Satzes auszuwählen. Anfangs mögen die Vorhersagen des Modells ungenau sein, aber der Trainingsalgorithmus verfeinert allmählich die Parameter des Modells, wodurch der Verlust – ein Maß für den Unterschied zwischen der Vorhersage des Modells und dem tatsächlichen Wort im Satz – verringert wird. Dieser Prozess wiederholt sich möglicherweise über Milliarden von Sätzen, bis der Gesamtverlust minimiert ist. Ein LLM wird auch an neuen Sätzen getestet, die nicht in seinen Trainingsdaten enthalten sind. Wenn es mit einem neuen Textimpuls konfrontiert wird, generiert das trainierte Modell ein wahrscheinliches nächstes Wort, fügt es dem Impuls hinzu und setzt diesen Prozess fort, um eine kohärente Antwort zu produzieren. Diese Trainingsmethode legt nicht nahe, dass größere LLMs, die mit mehr Parametern und Daten entwickelt wurden, sich auch in Aufgaben verbessern sollten, die komplexe Denkfähigkeiten erfordern.

Größere LLMs haben jedoch Fähigkeiten gezeigt, die von der Lösung einfacher mathematischer Probleme bis zum Verständnis mentaler Zustände reichen, Fähigkeiten, die in kleineren Modellen nicht offensichtlich waren. Aroras und Goyals Arbeit zielt darauf ab, zu verstehen, wie diese Fähigkeiten entstehen. Sie verwenden mathematische Konstrukte, die als Zufallsgraphen bekannt sind, um das Verhalten von LLMs zu modellieren. Diese Graphen, bestehend aus Knoten, die durch Kanten verbunden sind, zeigen unerwartete Verhaltensweisen, wenn sie bestimmte Schwellenwerte erreichen. Arora und Goyal konzentrierten sich auf bipartite Graphen mit zwei Arten von Knoten, die Textabschnitte und die zur Verständigung erforderlichen Fähigkeiten repräsentieren. In ihrem Modell deuten Verbindungen zwischen Fähigkeitsknoten und Textknoten darauf hin, dass ein LLM spezifische Texte verstehen muss. Diese Verbindungen legen auch nahe, dass mehrere Texte ähnliche Fähigkeiten nutzen könnten.

Die Theorie von Arora und Goyal verknüpft neuronale Skalierungsgesetze, die beschreiben, wie sich die Leistung eines Modells mit seiner Größe und Daten verbessert, mit dem Verhalten dieser bipartiten Graphen. Sie vermuteten, dass der wachsende Fähigkeitensatz eines LLMs, wenn es skaliert wird, durch eine erhöhte Verbindung zwischen Fähigkeitsknoten und Textknoten in diesen Graphen dargestellt wird. Diese Zunahme an Verbindungen impliziert, dass das Modell neue Fähigkeiten erwirbt und sie auf neuartige Weise kombiniert, was zu den unerwarteten Fähigkeiten führt, die in größeren LLMs beobachtet werden.

Um ihre Theorie zu validieren, entwickelten Arora, Goyal und ihre Kollegen die „Skill-Mix“-Methode, um die Fähigkeit eines Großsprachmodells (LLM) zu bewerten, mehrere Fähigkeiten gleichzeitig bei der Textgenerierung einzusetzen. Sie testeten beispielsweise GPT-4, ein leistungsstarkes LLM, indem sie es baten, Texte zu einem bestimmten Thema zu generieren, die spezifische Fähigkeiten demonstrieren. Die Reaktionen des Modells, die mehrere Fähigkeiten auf eine Weise kombinieren, die in seinen Trainingsdaten nicht vorhanden war, deuten darauf hin, dass es über sein Training hinaus generalisieren kann, was auf ein Verständnisniveau hindeutet, das über bloße Wiederholung hinausgeht.

Zusammenfassend wird die anhaltende Debatte über die wahren Fähigkeiten von LLMs durch aufkommende Forschungen neu geformt. Die Arbeit von Arora und Goyal, unterstützt durch empirische Belege, stellt die Vorstellung von LLMs als stochastischen Papageien in Frage und legt nahe, dass diese Modelle eine Form des Verständnisses besitzen, die sich in ihrer Fähigkeit zeigt, Fähigkeiten auf neue Weisen zu kombinieren und anzuwenden. Diese Entwicklung verändert nicht nur unsere Wahrnehmung von LLMs, sondern eröffnet auch neue Wege zum Verständnis und zur Verbesserung der Künstlichen Intelligenz.

Neue Theorie: Chatbots könnten Texte verstehen
Neue Theorie: Chatbots könnten Texte verstehen (Foto:Midjourney, IT BOLTWISE)

Hinweis: Teile dieses Textes könnten mithilfe einer Künstlichen Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.