MÜNCHEN (IT BOLTWISE) – Forscher des MIT haben eine Methode entwickelt, die das Training von Allzweck-Robotern durch die Nutzung vielfältiger Datenquellen optimiert und so die Adaptionsfähigkeit der Roboter deutlich verbessert.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
In der beliebten Zeichentrickserie „Die Jetsons“ erledigt der Roboter Rosie mit Leichtigkeit verschiedenste Aufgaben, von Hausarbeit bis zur Essenszubereitung. Doch im realen Leben ist das Training eines vielseitig einsetzbaren Roboters nach wie vor eine erhebliche Herausforderung.
Bisher mussten Ingenieure für die Ausbildung von Robotern spezialisierte Daten sammeln, die in einer kontrollierten Umgebung erzeugt werden. Dieser Prozess ist jedoch aufwendig, kostspielig und schränkt die Einsatzmöglichkeiten des Roboters ein. Ein Team von MIT-Forschern hat nun einen neuen Ansatz entwickelt, der heterogene Datenquellen kombiniert und so das Training von Robotern für eine Vielzahl an Aufgaben ohne zusätzlichen Aufwand ermöglicht.
Das Herzstück dieser Methode ist ein sogenannter „Heterogeneous Pretrained Transformer“ (HPT), der Informationen aus verschiedenen Datenquellen – von Simulationen über reale Roboter bis hin zu visuellen und propriozeptiven Sensoren – in eine gemeinsame „Sprache“ übersetzt, die ein generatives KI-Modell verarbeiten kann. Die Forschung wurde auf der Preprint-Plattform arXiv veröffentlicht und zeigt, dass HPT bereits heute in Simulationen und realen Umgebungen die Leistung der Roboter um über 20 % verbessern kann.
Lirui Wang, Elektroingenieur und Doktorand am MIT, betont, dass das Problem weniger in fehlenden Daten liege, sondern in der Heterogenität der Datentypen und der unterschiedlichen Hardware. „Unsere Arbeit zeigt, wie man Roboter mit unterschiedlichsten Daten gemeinsam trainieren kann.“ Wang ist Hauptautor des Papers, das zusammen mit Jialiang Zhao, Xinlei Chen und Kaiming He auf der Conference on Neural Information Processing Systems vorgestellt wird.
Von Sprachmodellen inspiriert
Der Ansatz der MIT-Forscher orientiert sich an der Struktur großer Sprachmodelle wie GPT-4, die riesige Mengen an Daten verarbeiten und anschließend für spezifische Aufgaben angepasst werden. Roboter müssen jedoch mit komplexeren Datentypen arbeiten, darunter Kamerabilder, Sprachbefehle und Tiefeninformationen. Außerdem ist jeder Roboter mechanisch einzigartig, was das Training zusätzlich erschwert.
Die Lösung, die als HPT-Architektur bezeichnet wird, verwendet einen Transformer, um die visuelle Wahrnehmung und propriozeptiven Eingaben zu verarbeiten und in ein einheitliches Token-Format zu übersetzen. Dieser Ansatz erlaubt es, die Eingaben aus verschiedenen Modalitäten in einer gemeinsamen Datenstruktur zu verarbeiten, wodurch eine flexiblere und robustere Basis für das Robotertraining entsteht.
Die Forscher bereiteten hierfür ein Dataset mit über 200.000 Roboterbewegungen auf, darunter Simulationen, menschliche Demonstrationen und sensorische Daten, um das Modell vorzuschulen und eine solide Grundlage für die verschiedensten Aufgaben zu schaffen. Diese Methode erleichtert die Feinabstimmung der Roboter für spezielle Aufgaben, indem nur wenige zusätzliche Daten über die spezifische Roboterumgebung nötig sind.
Robuste und anpassungsfähige Roboter der Zukunft
Bei Tests in Simulation und Realität konnte HPT die Leistung der Roboter um über 20 % verbessern. Selbst wenn die Aufgaben von den Trainingsdaten abwichen, zeigte HPT noch immer eine erhebliche Verbesserung gegenüber herkömmlichen Trainingsmethoden. Langfristig hoffen die Forscher, das System so weiterzuentwickeln, dass Roboter in Zukunft noch vielfältigere Daten wie unlabeled Daten verarbeiten und flexibler auf neue Aufgaben und Umgebungen reagieren können.
„Unser Traum ist ein universelles Roboterhirn, das ohne Training auf beliebige Roboter übertragen werden kann. Obwohl wir noch am Anfang stehen, sind wir überzeugt, dass Skalierung und Datenvielfalt zu einem Durchbruch führen können, ähnlich wie bei großen Sprachmodellen,“ erklärt Wang abschließend.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.