Heimliches KI-Training: YouTube-Videos im Fokus von Apple, Nvidia und Co. - IT BOLTWISE® x Artificial Intelligence

MÜNCHEN (IT BOLTWISE) – Technologiekonzerne wie Apple, Anthropic, Nvidia und Salesforce haben in großem Umfang YouTube-Videos genutzt, um ihre KI-Systeme zu trainieren, was Fragen zu Urheberrechten und der Einhaltung von YouTube-Bedingungen aufwirft.



Mehr als 170.000 YouTube-Videos wurden ohne Zustimmung der Urheber in einen riesigen Datensatz aufgenommen, der von einigen der größten Technologieunternehmen zur Schulung ihrer KI-Systeme verwendet wurde. Der Datensatz, bekannt als „YouTube Subtitles“, besteht aus Untertiteln, die von über 48.000 Kanälen stammen, darunter beliebte Schöpfer wie MrBeast und Marques Brownlee sowie Nachrichtenagenturen wie ABC News, BBC und The New York Times.

Der Datensatz wurde von der gemeinnützigen Organisation EleutherAI als Teil einer größeren Sammlung namens „The Pile“ erstellt, die auch Bücher, Wikipedia-Artikel und andere Texte enthält. Diese Sammlung sollte ursprünglich Einzelpersonen und kleineren Unternehmen den Zugang zu nützlichen Daten ermöglichen, wurde jedoch auch von großen Technologiekonzernen genutzt.

MKBHD, der Kanal von Marques Brownlee, kommentierte auf X (ehemals Twitter): „Apple hat Daten für ihre KI von mehreren Unternehmen bezogen. Eines davon hat tonnenweise Daten/Transkripte von YouTube-Videos, einschließlich meiner, gesammelt.“ Er fügte hinzu: „Dies wird noch lange ein Problem bleiben.“

Viele YouTube-Schöpfer sind überrascht und frustriert, dass ihre Inhalte ohne Zustimmung verwendet wurden. David Pakman, Gastgeber der linken politischen Sendung „The David Pakman Show“, sagte: „Niemand hat mich gefragt, ob sie meine Videos verwenden dürfen. Das ist mein Lebensunterhalt, und ich investiere viel Zeit, Ressourcen und Geld in die Erstellung dieser Inhalte.“

Der YouTube-Datensatz umfasst auch Videos von prominenten Bildungskanälen wie Khan Academy, MIT und Harvard sowie von Unterhaltungsshows wie „The Late Show with Stephen Colbert“ und „Last Week Tonight with John Oliver“. Einige der Inhalte fördern sogar Verschwörungstheorien wie die „Flat Earth Theory“.

Anthropic, einer der KI-Entwickler, betonte, dass der Datensatz nur eine kleine Teilmenge von YouTube-Untertiteln enthalte und dass die Nutzung der Pile-Datenbank keine Verletzung der YouTube-Bedingungen darstelle. Apple, Nvidia und Salesforce haben die Verwendung des Datensatzes in ihren Forschungsarbeiten bestätigt, wobei sie angaben, dass es sich um öffentlich zugängliche Daten handelte.

Während YouTube-CEO Neal Mohan und Google-CEO Sundar Pichai betonten, dass die Nutzung von YouTube-Inhalten zur KI-Entwicklung gegen die Nutzungsbedingungen der Plattform verstoße, haben einige Unternehmen argumentiert, dass das Scraping dieser Daten unter das Prinzip des „Fair Use“ falle.

Proof News hat ein interaktives Tool veröffentlicht, mit dem Benutzer überprüfen können, ob ihre Inhalte im Datensatz enthalten sind. Dies zeigt, wie wenig Kontrolle Urheber über die Verwendung ihrer Werke im Internet haben.

Insgesamt zeigt dieser Vorfall, dass die Frage der Datenquellen für KI-Training ein komplexes und umstrittenes Thema bleibt. Während große Technologiekonzerne weiterhin auf umfassende Daten zugreifen, um ihre KI-Systeme zu verbessern, stehen Fragen zu Urheberrechten und fairer Nutzung im Raum.

Heimliches KI-Training: YouTube-Videos im Fokus von Apple, Nvidia und Co.
Heimliches KI-Training: YouTube-Videos im Fokus von Apple, Nvidia und Co. (Foto: DALL-E, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.