SAN FRANCISCO / MÜNCHEN (IT BOLTWISE) – OpenAI hat kürzlich eine bedeutende Erweiterung für seinen Chatbot ChatGPT vorgestellt, die eine visuelle Komponente in den Advanced Voice Mode integriert. Diese Neuerung ermöglicht es Nutzern, Objekte in Echtzeit zu erfassen und zu analysieren, was das Potenzial der Künstlichen Intelligenz in der Interaktion mit der physischen Welt erheblich erweitert.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
OpenAI hat mit der Einführung einer visuellen Komponente im Advanced Voice Mode von ChatGPT einen weiteren Schritt in der Entwicklung von KI-gestützten Interaktionen gemacht. Diese Funktion erlaubt es Nutzern, Objekte mit ihrer Handykamera zu erfassen und in Echtzeit analysieren zu lassen. Dies könnte insbesondere für Anwendungen in der Industrie und im Bildungsbereich von großem Nutzen sein, da es eine nahtlose Integration von visuellen und auditiven Informationen ermöglicht.
Die Einführung dieser Funktion ist jedoch nicht ohne Herausforderungen. Während die globale Einführung bereits begonnen hat, gibt es Verzögerungen in Europa, insbesondere für Enterprise- und Edu-Kunden, die bis Januar warten müssen. Diese Verzögerungen könnten auf regulatorische Hürden oder technische Anpassungen zurückzuführen sein, die für den europäischen Markt erforderlich sind.
In einer kürzlichen Demonstration auf CNN zeigte OpenAI-Präsident Greg Brockman die Fähigkeiten der neuen Funktion, indem er ChatGPT Zeichnungen von Körperteilen auf einem Whiteboard analysieren ließ. Obwohl die KI beeindruckende Ergebnisse bei der Erkennung der Zeichnungen lieferte, zeigte sich bei komplexeren Aufgaben wie Geometrieaufgaben noch Verbesserungspotenzial.
Die Einführung der visuellen Komponente wurde mehrfach verschoben, da OpenAI die Funktion bereits ankündigte, bevor die Entwicklung vollständig abgeschlossen war. Dies führte zu einer erhöhten Erwartungshaltung bei den Nutzern, die nun auf die tatsächliche Verfügbarkeit warten müssen.
Während OpenAI an der Erweiterung der visuellen Funktion arbeitete, konzentrierte sich das Unternehmen auch darauf, den rein stimmlichen Advanced Voice Mode auf weitere Plattformen und für Nutzer in der EU zugänglich zu machen. Interessanterweise arbeiten auch Konkurrenten wie Google an ähnlichen Technologien. Google hat kürzlich sein Projekt Astra, das KI-gestützte videoanalysierende Gespräche ermöglicht, für eine ausgewählte Gruppe von Android-Testern freigegeben.
Die Integration visueller Komponenten in KI-Systeme könnte die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändern. Durch die Kombination von visuellen und auditiven Daten kann eine umfassendere und intuitivere Benutzererfahrung geschaffen werden, die sowohl im privaten als auch im beruflichen Umfeld neue Möglichkeiten eröffnet.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.