NEW YORK / MÜNCHEN (IT BOLTWISE) – Getty Images geht aufs Ganze, um sich als vertrauenswürdiger Datenpartner zu etablieren. Das Unternehmen, bekannt für die Bereitstellung und den Verkauf visueller Inhalte von Fotografen und Videografen weltweit, hat heute bekannt gegeben, dass es Bilder aus seiner Bibliothek als ein Open Dataset auf Hugging Face veröffentlicht.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Getty Images hebt sich mit diesem Schritt von der Masse der visuellen Datensätze auf der Hugging Face-Plattform ab. Laut dem Unternehmen bietet das Dataset hohe Zuverlässigkeit und rechtliche Sicherheit. Unternehmen können es bedenkenlos in ihre KI-Trainingspipelines integrieren, ohne Bedenken hinsichtlich der Qualität oder möglicher rechtlicher Herausforderungen zu haben.
„Stellen Sie sich vor, Sie könnten Ihre KI/ML-Fähigkeiten mit Daten aufbauen oder erweitern, die nicht nur vielfältig und hochwertig sind, sondern auch die Gewissheit bieten, dass sie verantwortungsbewusst beschafft wurden. Genau das bringen wir auf den Tisch,“ erklärte Andrea Gagliano, Leiterin der Datenwissenschaft und KI/ML bei Getty Images.
Das Unternehmen hofft, durch diesen Schritt ein Ökosystem zu schaffen, in dem sich KI-Unternehmen bevorzugt für offiziell lizenzierte Inhalte von der Plattform entscheiden, um ihre KI-Modelle zu trainieren.
Was bietet das Getty Images Dataset?
Beim Training von KI/ML-Modellen stehen Entwickler oft vor der Herausforderung von schlecht beschafften, qualitativ minderwertigen Daten. Um diese Mängel zu beheben, müssen die Datenbestände oft mehrfach überarbeitet werden, um Duplikate zu entfernen, beschädigte Dateien zu bereinigen und gefährliche oder unerwünschte Elemente wie Promibilder, Markeninhalte, NSFW-Inhalte oder niedrige Auflösungen auszuschließen.
Dieser Reinigungsprozess kann, insbesondere bei großen Datensätzen, viel Zeit und Ressourcen beanspruchen, was zu verpassten Chancen für das Engineering-Team führt. Trotz aller Mühe können immer noch problematische Inhalte durchschlüpfen und rechtliche Konflikte verursachen.
Getty Images will mit seinem neuen Open Dataset auf Hugging Face all diese Herausforderungen lösen. Es bietet Entwicklern eine direkt nutzbare Sammlung von qualitativ hochwertigen Bildern aus 15 Kategorien.
„Dieses Beispiel-Dataset enthält 3.750 Bilder aus 15 Kategorien, darunter abstrakte Hintergründe, Geschäftswelten, Konzepte, Bildung, Gesundheitswesen, Icons, Industrie, Natur, Illustrationen und Reisen“, erläutert Gagliano.
Das Dataset stammt aus der vollständig eigenen kreativen Bibliothek von Getty Images, was bedeutet, dass die Bilder kommerziell sicher sind und ohne rechtliche Bedenken verwendet werden können. Zudem sind keine aufwendigen Reinigungs- oder Anreicherungsprozesse erforderlich, da das gesamte Set speziell für das maschinelle Lernen kuratiert wurde. Alle Bilder sind hochauflösend, mit strukturierten Metadaten versehen und enthalten keine unerwünschten Elemente wie NSFW-Inhalte.
Verwendungsbedingungen beachten
Obwohl das Sample-Dataset offen zur Nutzung bereitsteht, gelten bestimmte Bedingungen, um sicherzustellen, dass die lizenzierten Inhalte verantwortungsbewusst verwendet werden. Zu den Einschränkungen zählen unter anderem das Verbot der Weiterverteilung des Datensatzes, die Entwicklung von Software zur Nachbildung oder Reproduktion der Inhalte und die Schaffung von Produkten, die in direkter Konkurrenz zu Getty Images stehen. Ebenso ist die Erstellung oder Nutzung biometrischer Identifikatoren aus dem Datensatz untersagt.
Getty Images erhofft sich, dass dieser Schritt die Entwicklergemeinschaft stärker einbindet und sie die Tiefe und Breite der angebotenen Inhalte besser versteht. Das Unternehmen möchte zeigen, dass es als vertrauenswürdiger Partner für lizenzierte, hochwertige Daten im Bereich des verantwortungsvollen KI-Trainings auftreten kann.
„Unser Ziel ist es zu zeigen, dass es möglich ist, Lizenzen für alle benötigten Inhalte zum Trainieren funktionsfähiger KI-Modelle zu bieten. Damit entwickeln wir Geschäftsmodelle, die die Erstellung hochwertiger KI-Modelle ermöglichen und gleichzeitig das geistige Eigentum der Ersteller respektieren“, fügte Gagliano hinzu.
Entwickler, die mehr Daten benötigen, können sich mit Getty Images in Verbindung setzen, um eine größere, lizenzierte Datenquelle für ihre jeweiligen Anwendungsfälle zu erhalten. Dieses Modell sorgt auch dafür, dass die ursprünglichen Ersteller der Inhalte eine jährliche, wiederkehrende Vergütung erhalten. Bemerkenswert ist, dass Getty Images diesen Ansatz bereits bei der Entwicklung seines KI-Bildgenerierungstools in Partnerschaft mit NVIDIA angewendet hat.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.