NEW YORK / MÜNCHEN (IT BOLTWISE) – Forscher der New York University haben gezeigt, dass KI-Systeme, ähnlich wie Kinder, Sprache und Konzepte lernen können, indem sie nur die Eingaben nutzen, die ein Kind erhält.
Large Language Models, wie GPT-4, lernen und verwenden menschliche Sprache, allerdings basiert ihr Lernen auf astronomisch großen Datenmengen – weit mehr, als Kinder erhalten, wenn sie lernen, eine Sprache zu verstehen und zu sprechen. Die besten KI-Systeme trainieren mit Texten, deren Wortanzahl in die Billionen geht, während Kinder jährlich nur Millionen von Wörtern aufnehmen.
Angesichts dieser enormen Datenlücke waren Forscher skeptisch, ob die jüngsten Fortschritte in der KI wirklich Aufschlüsse über menschliches Lernen und Entwicklung geben können. Ein idealer Test, um eine Verbindung aufzuzeigen, würde darin bestehen, ein KI-Modell nicht mit massiven Daten aus dem Internet, sondern nur mit den Eingaben zu trainieren, die ein einzelnes Kind erhält. Was könnte das Modell dann lernen?
Ein Team von Forschern der New York University hat genau dieses Experiment durchgeführt. Sie trainierten ein multimodales KI-System durch die Augen und Ohren eines einzelnen Kindes, indem sie Kopfkamera-Videoaufnahmen verwendeten, die von dem Kind gemacht wurden, als es sechs Monate alt war und bis zu seinem zweiten Geburtstag. Sie untersuchten, ob das KI-Modell Wörter und Konzepte, die in der alltäglichen Erfahrung eines Kindes präsent sind, lernen könnte.
Ihre Ergebnisse, die in der neuesten Ausgabe des Journals Science veröffentlicht wurden, zeigten, dass das Modell, oder neuronale Netzwerk, tatsächlich eine beträchtliche Anzahl von Wörtern und Konzepten mit begrenzten Ausschnitten dessen, was das Kind erlebte, lernen konnte. Das heißt, das Video erfasste nur etwa 1% der wachen Stunden des Kindes, aber das war ausreichend für echtes Sprachenlernen.
„Wir zeigen zum ersten Mal, dass ein neuronales Netzwerk, das mit dieser entwicklungsrealistischen Eingabe von einem einzelnen Kind trainiert wurde, Wörter mit ihren visuellen Gegenstücken verknüpfen kann“, sagt Wai Keen Vong, ein Forschungswissenschaftler am Center for Data Science der NYU und Erstautor der Studie.
„Unsere Ergebnisse demonstrieren, wie jüngste algorithmische Fortschritte zusammen mit der natürlichen Erfahrung eines Kindes unser Verständnis von frühem Sprach- und Konzepterwerb neu gestalten könnten.“
„Indem wir KI-Modelle verwenden, um das echte Sprachlernproblem zu studieren, mit dem Kinder konfrontiert sind, können wir klassische Debatten darüber adressieren, welche Zutaten Kinder zum Wortlernen benötigen – ob sie sprachspezifische Voreingenommenheiten, angeborenes Wissen oder einfach assoziatives Lernen benötigen, um zu beginnen“, fügt Brenden Lake, ein Assistenzprofessor am Center for Data Science und der Abteilung für Psychologie der NYU und der leitende Autor der Studie, hinzu.
„Es scheint, dass wir mit bloßem Lernen mehr erreichen können, als gemeinhin angenommen wird.“
Vong, Lake und ihre Kollegen von der NYU, Wentao Wang und Emin Orhan, analysierten den Lernprozess eines Kindes, der auf Erste-Person-Video – über eine leichte, kopfmontierte Kamera – auf wöchentlicher Basis erfasst wurde, beginnend mit sechs Monaten und durchgehend bis 25 Monate, mit mehr als 60 Stunden Filmmaterial.
Das Filmmaterial enthielt ungefähr eine Viertelmillion Wortinstanzen (d.h. die Anzahl der kommunizierten Wörter, viele davon wiederholt), die mit Videoaufnahmen dessen verknüpft sind, was das Kind sah, als diese Wörter gesprochen wurden, und umfasste eine breite Palette von verschiedenen Aktivitäten über die Entwicklung hinweg, einschließlich Mahlzeiten, Bücher lesen und das Spielen des Kindes.
Die NYU-Forscher trainierten dann ein multimodales neuronales Netzwerk mit zwei separaten Modulen: einem, das einzelne Videobilder aufnimmt (der Vision-Encoder) und einem anderen, das die transkribierte, an das Kind gerichtete Sprache aufnimmt (der Sprach-Encoder).
Diese beiden Encoder wurden kombiniert und mit einem Algorithmus namens kontrastives Lernen trainiert, das darauf abzielt, nützliche Eingabemerkmale und ihre querschnittlichen Assoziationen zu lernen. Zum Beispiel, wenn ein Elternteil etwas im Blickfeld des Kindes sagt, ist es wahrscheinlich, dass einige der verwendeten Wörter sich auf etwas beziehen, das das Kind sehen kann, was bedeutet, dass das Verständnis durch die Verknüpfung visueller und sprachlicher Hinweise gefördert wird.
„Dies gibt dem Modell einen Hinweis darauf, welche Wörter mit welchen Objekten assoziiert werden sollten“, erklärt Vong.
„Das Kombinieren dieser Hinweise ermöglicht es dem kontrastiven Lernen, allmählich zu bestimmen, welche Wörter zu welchen visuellen Darstellungen gehören und so das Erlernen der ersten Wörter eines Kindes zu erfassen.“
Nach dem Training des Modells testeten die Forscher es mit den gleichen Arten von Bewertungen, die verwendet werden, um das Wortlernen bei Säuglingen zu messen – indem sie das Modell mit dem Zielwort und einem Array von vier verschiedenen Bildoptionen präsentierten und es baten, das Bild auszuwählen, das zum Zielwort passt.
Ihre Ergebnisse zeigten, dass das Modell eine beträchtliche Anzahl der Wörter und Konzepte, die in der alltäglichen Erfahrung des Kindes präsent sind, lernen konnte. Darüber hinaus konnte das Modell für einige der gelernten Wörter diese auf visuell sehr unterschiedliche Instanzen als die beim Training gesehenen verallgemeinern, was einen Aspekt der Verallgemeinerung widerspiegelt, der auch bei Kindern beobachtet wird, wenn sie im Labor getestet werden.
„Diese Befunde legen nahe, dass dieser Aspekt des Wortlernens aus der Art von natürlichen Daten machbar ist, die Kinder erhalten, während sie relativ generische Lernmechanismen verwenden, wie sie in neuronalen Netzwerken gefunden werden“, beobachtet Lake.
Die Arbeit wurde von der US-amerikanischen Verteidigungsbehörde Defense Advanced Research Projects Agency (N6600119C4030) und der National Science Foundation (1922658) unterstützt. Die Teilnahme des Kindes wurde von den Eltern genehmigt und die Methodik von der Ethikkommission der NYU genehmigt.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.