NEW YORK / MÜNCHEN (IT BOLTWISE) – Gemini-Co-Leiter Oriol Vinyals begegnet der Kritik an einem inszenierten Hands-on-Demo von Googles Gemini mit Fakten zur Realität hinter den gezeigten Ausschnitten.
Gemini-Co-Leiter Oriol Vinyals hat sich zu der Kritik an der inszenierten Hands-on-Demo von Google Gemini geäußert und betont, dass „alle Benutzereingaben und Ausgaben im Video echt sind, allerdings der Kürze halber gekürzt wurden“.
Das Video, das Kritik hervorrief, sollte laut Vinyals „illustrieren, wie die multimodalen Benutzererlebnisse aussehen könnten, die mit Gemini entwickelt wurden.“ Es wurde hergestellt, „um Entwickler zu inspirieren“, so Vinyals.
Er nahm sich sogar die Zeit, die Entwicklerumgebung zu präsentieren und KI-Ausgaben mit einer Kombination aus Bildern und Eingabeaufforderungen zu generieren, ähnlich wie im Video von Google gezeigt.
Es handelt sich hierbei nicht um Echtzeit-Videoanalysen in Kombination mit Sprache, wie im nachfolgenden Video von Google dargestellt. Es zeigt jedoch, dass die zugrunde liegenden Fähigkeiten für solch ein Anwendungsbeispiel Teil von Gemini Pro und Ultra sind – was nicht überrascht, denn solche Fähigkeiten kennen wir bereits von GPT-4 Vision.
Google hat sich bei der Demonstration der multimodalen Fähigkeiten von Gemini des Ansatzes „Fake it till you make it“ bedient. Ein inszeniertes Demovideo hinterlässt bei den Entwicklern und Mitarbeitern Zweifel an den wahren Fähigkeiten von Googles neuem Gemini-Sprachmodell.
Im Video, betitelt mit „Hands-on mit Gemini: Interaktion mit multimodaler KI“, präsentiert Google die beeindruckenden Fähigkeiten des KI-Modells zur Stimminteraktion und visuellen Echtzeitantwort. Nach der Demonstration stellte sich jedoch heraus, dass die Stimminteraktion nicht vorhanden war und die Demonstration nicht in Echtzeit stattfand. Stattdessen nutzte Google Standbilder aus dem Video mit spezifischen Textaufforderungen, um die Ergebnisse zu erzielen. In der Videobeschreibung gibt Google an: „Zu Demonstrationszwecken wurde die Latenz reduziert und die Ausgaben von Gemini wurden der Kürze halber gekürzt.“
Laut Bloomberg räumt Google ein, dass die tatsächliche Demonstration die Nutzung von Standbildern aus dem Video und Textaufforderungen umfasste, anstatt dass Gemini in Echtzeit Vorhersagen traf oder auf Veränderungen reagierte. Ein Making-of des Videos ist auf Googles Entwickler-Blog zu finden.
Quellen von Bloomberg und The Information nach zu urteilen, haben Google-Mitarbeiter intern Kritik und Bedenken bezüglich des Demovideos geäußert. Ein Google-Mitarbeiter erklärte, das Video vermittle ein unrealistisches Bild davon, wie einfach es sei, beeindruckende Ergebnisse mit Gemini zu erzielen.
Das inszenierte Demo wurde auch innerhalb des Unternehmens zum Gegenstand von Memen und Witzen, wobei sich Mitarbeiter mit Bildern und Kommentaren über die Diskrepanz zwischen Video und tatsächlichem KI-System lustig machten.
Trotz der Kontroversen um das Demovideo besteht Google darauf, dass alle im Video gezeigten Benutzereingaben und -ausgaben echt sind, selbst wenn das Video eine Echtzeitumsetzung suggeriert, die noch nicht existiert.
Eli Collins, Vizepräsident für Produkte bei Google DeepMind, teilte Bloomberg mit, dass die Entenzeichnungs-Demo noch in der Forschungsphase sei und noch nicht Teil von Googles Produkten.
„Es ist eine neue Ära für uns“, sagte Collins zu Bloomberg. „Wir betreten Neuland aus Forschungssicht. Das ist Version 1. Es ist erst der Anfang.“
Google veröffentlichte außerdem Benchmark-Ergebnisse auf irreführende Weise. Es verglich eine Top-Platzierung im bekannten Sprachverständnis-Benchmark MMLU, wo eine komplexere Eingabeaufforderungsmethode (CoT@32) benutzt wurde, mit der Standard-Benchmark-Methode, die OpenAI bei GPT-4 (5-shot) testete. Mit der 5-Shot-Eingabemethode auf MMLU erzielt Googles größtes Modell, Gemini Ultra, eine um 2,7 Prozent schlechtere Leistung als GPT-4.
Obwohl Gemini mit CoT@32 den besten Gesamtscore beim MMLU erreichte, ist die Art und Weise, wie dieses Ergebnis präsentiert wird, fragwürdig. Es zeigt – wie auch das gefälschte Echtzeit-Video -, dass Google versucht hat, um jeden Preis Gemini als überlegen gegenüber GPT-4 darzustellen, anstatt als ungefähr gleichwertig, was wahrscheinlich näher an der Wahrheit ist.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.