Wie Kameras und KI durch Nachahmung der menschlichen Augenfokussierung Bilder besser verstehen

Kansai Science City, JAPAN / MÜNCHEN (IT BOLTWISE) – Forscher aus Japan haben eine bahnbrechende Methode entwickelt, die die Art und Weise verbessert, wie Kameras und Künstliche Intelligenz (KI) Bilder verstehen, indem sie nachahmen, wie menschliche Augen fokussieren.

In der Computer Vision gibt es spezielle Herausforderungen, besonders in Bereichen wie Augmented Reality und autonomen Fahrzeugen. Eine dieser Herausforderungen ist es, den Abstand zwischen Objekten und der Kamera zu messen. Eine Methode, die diesen Vorgang erleichtert, nutzt die Unschärfe in Bildern als Anhaltspunkt. Diese Methode heißt Tiefenbestimmung durch Fokus und Defokus. Um sie anzuwenden, benötigt man normalerweise mehrere Aufnahmen der gleichen Szene. Diese Aufnahmen müssen mit unterschiedlichen Fokuseinstellungen gemacht werden. Die Sammlung dieser Aufnahmen wird “Fokalstapel” genannt.

In den letzten Jahren haben Wissenschaftler viele Methoden für die Tiefenschätzung aus Fokus/Defokus vorgeschlagen, die hauptsächlich in zwei Kategorien unterteilt werden können. Die erste Kategorie umfasst modellbasierte Methoden, die mathematische und optische Modelle verwenden, um die Szenentiefe auf Basis von Schärfe oder Unschärfe zu schätzen. Das Hauptproblem dieser Methoden besteht jedoch darin, dass sie bei texturlosen Oberflächen versagen, die im gesamten Fokalstapel nahezu identisch aussehen.

Die zweite Kategorie beinhaltet lernbasierte Methoden, die darauf trainiert werden können, die Tiefenschätzung aus Fokus/Defokus effizient durchzuführen, selbst bei texturlosen Oberflächen. Allerdings scheitern diese Ansätze, wenn die Kameraeinstellungen eines Eingabefokalstapels von denen im Trainingssatz verwendet unterschiedlich sind.

Ein Forschungsteam aus Japan, unter der Leitung von Yasuhiro Mukaigawa und Yuki Fujimura vom Nara Institute of Science and Technology (NAIST), hat nun eine innovative Methode entwickelt, die gleichzeitig die genannten Probleme überwindet. Ihre Studie, veröffentlicht im International Journal of Computer Vision, präsentiert die Technik “Deep Depth from Focal Stack” (DDFS), die modellbasierte Tiefenschätzung mit einem Lernframework kombiniert, um das Beste aus beiden Welten zu vereinen. Inspiriert von einer Strategie aus der Stereovision, involviert DDFS die Erstellung eines “Kostenvolumens” basierend auf dem Eingabefokalstapel, den Kameraeinstellungen und einem Linsen-Defokus-Modell.

Einfach ausgedrückt repräsentiert das Kostenvolumen eine Reihe von Tiefenhypothesen – potenzielle Tiefenwerte für jedes Pixel – und einen damit verbundenen Kostenwert, der auf der Basis der Konsistenz zwischen den Bildern im Fokalstapel berechnet wird. “Das Kostenvolumen legt eine Einschränkung zwischen den Defokusbildern und der Szenentiefe fest und dient als Zwischenrepräsentation, die eine Tiefenschätzung mit unterschiedlichen Kameraeinstellungen bei Trainings- und Testzeiten ermöglicht”, erklärt Mukaigawa.

Die DDFS-Methode verwendet auch ein Encoder-Decoder-Netzwerk, eine häufig verwendete Architektur des maschinellen Lernens. Dieses Netzwerk schätzt die Szenentiefe progressiv in einer grob-zu-fein-Manier, indem es “Kostenaggregation” in jedem Stadium für das adaptive Lernen lokalisierter Strukturen in den Bildern verwendet.

Die Forscher verglichen die Leistung von DDFS mit der anderer modernster Tiefenschätzmethoden aus Fokus/Defokus. Bemerkenswerterweise übertraf der vorgeschlagene Ansatz die meisten Methoden in verschiedenen Metriken für mehrere Bilddatensätze. Zusätzliche Experimente mit Fokalstapeln, die mit der Kamera des Forschungsteams aufgenommen wurden, bewiesen weiter das Potenzial von DDFS, was es sogar mit nur wenigen Eingabebildern in den Eingabestapeln nützlich macht, im Gegensatz zu anderen Techniken.

Insgesamt könnte DDFS als vielversprechender Ansatz für Anwendungen dienen, bei denen eine Tiefenschätzung erforderlich ist, einschließlich Robotik, autonome Fahrzeuge, 3D-Bildrekonstruktion, virtuelle und erweiterte Realität sowie Überwachung. “Unsere Methode mit Kameraeinstellungsunabhängigkeit kann helfen, die Anwendbarkeit von lernbasierten Tiefenschätzungstechniken zu erweitern”, schließt Mukaigawa ab.

Neue Fortschritte verbessern das Verständnis von Bildern durch Kameras und KI, indem sie die Fokussierung des menschlichen Auges nachahmen (Foto:Midjourney, IT BOLTWISE)

Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.

Folgen Sie uns

Tweet #itboltwise

Tweet an @critchmitch

Stellenangebote

Qualitätsmanagement-Beauftragter (m/w/d) für KI-gestützte Medizinprodukte in Teilzeit (19,5 Std./Woche)

Deutsches Krebsforschungszentrum DKFZ

Heidelberg

Diesen Artikel kommentieren

60 Bewertungen

Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht

Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird

128 Bewertungen

Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«

Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut

71 Bewertungen

KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)

Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein

43 Bewertungen

Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition

Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "Wie Kameras und KI durch Nachahmung der menschlichen Augenfokussierung Bilder besser verstehen".

Stichwörter AI Artificial Intelligence Augmented Reality Autonome Fahrzeuge Computer Vision Fokalstapel KI Künstliche Intelligenz Lernbasierte Methoden Modellbasierte Methoden Tiefenschätzung

Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!

Nächster Artikel

Datenvergiftung: Ein ernstzunehmendes Risiko für Machine Learning Modelle

14. Februar 2024

Vorheriger Artikel

KI-Technologie zur Vorbeugung von Selbstmorden in der Montrealer U-Bahn eingeführt

14. Februar 2024

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Wie Kameras und KI durch Nachahmung der menschlichen Augenfokussierung Bilder besser verstehen" für unsere Leser?

Schreibe einen Kommentar Antworten abbrechen

Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)

Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Du möchtest über ähnliche News und Beiträge wie "Wie Kameras und KI durch Nachahmung der menschlichen Augenfokussierung Bilder besser verstehen" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.

Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Wie Kameras und KI durch Nachahmung der menschlichen Augenfokussierung Bilder besser verstehen« bei Google Deutschland suchen, bei Bing oder Google News!

232 Leser gerade online auf IT BOLTWISE®

KI-Schutz gegen Hacker #Sophos