MÜNCHEN (IT BOLTWISE) – Hugging Face stellt mit SmolVLM ein kompaktes Vision-Language-Modell vor, das KI-Kosten drastisch senken könnte.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Hugging Face hat mit SmolVLM ein bahnbrechendes Vision-Language-Modell entwickelt, das Bilder und Texte effizient verarbeitet und dabei nur einen Bruchteil der Rechenleistung vergleichbarer Modelle benötigt. Dieses kompakte Design verspricht, die Nutzung Künstlicher Intelligenz in Unternehmen revolutionär zu vereinfachen.
Während viele Firmen mit den steigenden Kosten großer Sprachmodelle und der enormen Rechenleistung von Vision-AI-Systemen zu kämpfen haben, bietet SmolVLM eine praktische und kosteneffiziente Alternative. Das Modell benötigt lediglich 5,02 GB GPU-RAM – deutlich weniger als Konkurrenzmodelle wie Qwen-VL 2B (13,70 GB) oder InternVL2 2B (10,52 GB).
Die technischen Grundlagen von SmolVLM sind beeindruckend. Es verwendet eine innovative Bildkompressionstechnologie, die visuelle Informationen mit nur 81 Tokens für Bildbereiche von 384×384 Pixeln kodiert. Diese Effizienz ermöglicht nicht nur die Analyse statischer Bilder, sondern auch von Videos – ein Bereich, in dem SmolVLM im CinePile-Benchmark mit 27,14 % eine bemerkenswerte Leistung zeigte.
Für Unternehmen bedeutet das einen großen Fortschritt: SmolVLM macht fortschrittliche Vision-Language-Funktionen auch für Firmen mit begrenzten Ressourcen zugänglich. Mit drei Varianten – einer Basis-, einer synthetischen und einer Instruct-Version – können Unternehmen je nach Anwendungsbedarf flexibel entscheiden.
Das Modell basiert auf dem SigLIP-Bildencoder und SmolLM2 für Textverarbeitung und nutzt Datensätze wie The Cauldron und Docmatix. Dank Apache 2.0 Lizenz ist SmolVLM frei verfügbar und lädt die Entwicklergemeinschaft dazu ein, innovative Anwendungen zu schaffen.
Hugging Face unterstreicht mit SmolVLM die Bedeutung von Effizienz und Zugänglichkeit in der KI-Entwicklung. In einer Zeit, in der Unternehmen Kostendruck und Umweltaspekte berücksichtigen müssen, zeigt das Modell eine Alternative zu ressourcenintensiven Ansätzen auf. Mit dieser Entwicklung könnte ein neues Kapitel in der Geschichte der Unternehmens-KI beginnen.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.