SAN FRANCISCO / NEW YORK / MÜNCHEN (IT BOLTWISE) – OpenAI, Entwickler von ChatGPT, hat auf die Urheberrechtsklage der New York Times reagiert und erklärt, dass diese unbegründet sei.
Nach der überraschenden Nachricht Ende letzten Jahres, dass die New York Times, eine der weltweit meistgelesenen und ikonischsten Zeitungsmarken, OpenAI und dessen Unterstützer Microsoft wegen Urheberrechtsverletzungen verklagte, hat OpenAI nun öffentlich mit einem Blogpost reagiert und die Klage als „unbegründet“ bezeichnet.
„Wir unterstützen den Journalismus, arbeiten mit Nachrichtenorganisationen zusammen und sind der Ansicht, dass die Klage der New York Times unbegründet ist“, beginnt der Beitrag von OpenAI.
In dem Blogpost werden drei Hauptargumente vorgebracht:
1. Wir arbeiten mit Nachrichtenorganisationen zusammen und schaffen neue Möglichkeiten
2. Training ist fairer Gebrauch, aber wir bieten eine Opt-Out-Option an, weil es das Richtige ist
3. „Regurgitation“ ist ein seltener Fehler, den wir auf null reduzieren wollen
Jedes Argument wird im Post weiter ausgeführt.
Besonders hervorgehoben wird OpenAIs Versuch, seine jüngsten Content-Lizenzvereinbarungen mit anderen Nachrichtenagenturen und Verlagen – darunter Axel Springer (Herausgeber von Politico und Business Insider) und die Associated Press (AP) – mit seiner bisherigen Position in Einklang zu bringen, dass es rechtlich weiterhin öffentliche Websites für Trainingsdaten seiner KI-Modelle, einschließlich der GPT-3.5 und GPT-4 Modelle, die ChatGPT antreiben, nutzen kann.
Seit seiner Entwicklerkonferenz DevDay im November 2023 bietet OpenAI Entschädigungen – oder rechtlichen Schutz aus eigener Tasche – für Organisationen und Abonnenten seiner KI-Produkte an.
Wie kam es dazu?
Die NYT reichte die Klage Ende Dezember 2023 beim berühmten Southern District Court von New York (zuständig für Manhattan) ein. Sie warf OpenAI vor, nicht nur seine urheberrechtlich geschützten Artikel ohne angemessene Erlaubnis oder Entschädigung für das Training verwendet zu haben, sondern lieferte auch Beispiele dafür, dass ChatGPT Texte erzeugte, die inhaltlich nahezu identisch mit zuvor veröffentlichten NYT-Artikeln waren, was sie als direkte Urheberrechtsverletzung durch die Erstellung „unautorisierter Reproduktionen und Derivate“ von NYT-Werken ansieht.
Die Klage wurde eingereicht, nachdem monatelange gescheiterte Verhandlungen zwischen OpenAI und Vertretern der NYT über einen Content-Lizenzvertrag stattgefunden hatten.
Im Blogpost erklärt OpenAI, dass es den „Einsatz öffentlich zugänglicher Internetmaterialien als fairen Gebrauch ansieht, wie es durch langjährige und allgemein akzeptierte Präzedenzfälle unterstützt wird“, merkt jedoch an, dass es „einen einfachen Opt-Out-Prozess für Verlage (den die New York Times im August 2023 übernahm) bietet, um unseren Tools den Zugriff auf ihre Seiten zu verwehren.“
Allerdings erklärt OpenAI nicht, dass diese Opt-Out-Option erst nach dem Start von ChatGPT im November 2022 bereitgestellt wurde, sodass die NY Times oder andere Verlage kaum eine Chance hatten, ihre Daten vorher vor dem Scraping zu schützen.
Die Implikation ist jedoch, dass jetzt, da OpenAI diesen Mechanismus bereitgestellt hat und einige Organisationen davon Gebrauch gemacht haben, die Vereinbarungen mit anderen Verlagen eine Möglichkeit sind, sie davon abzuhalten, ihn zu nutzen und OpenAI daran zu hindern, sich auf ihr Material für das Training zu stützen.
OpenAI wirft NYT ‚absichtliche Manipulation‘ vor
Bemerkenswert ist auch, dass OpenAI der NYT vorwirft, „gezielt Aufforderungen manipuliert zu haben“, um Beweise für die Reproduktion von Artikeln für ihren Fall zu erhalten, was gegen die Nutzungsbedingungen von OpenAI verstößt.
Interessanterweise scheinen die von der New York Times hervorgerufenen Wiederholungen aus jahrealten Artikeln zu stammen, die auf mehreren Dritt-Websites verbreitet wurden. Es scheint, als hätten sie absichtlich Aufforderungen manipuliert, oft unter Einbeziehung langer Auszüge von Artikeln, um unser Modell zur Wiedergabe zu veranlassen. Selbst bei der Verwendung solcher Aufforderungen verhalten sich unsere Modelle normalerweise nicht so, wie die New York Times andeutet, was darauf hindeutet, dass sie entweder das Modell zur Wiedergabe angewiesen haben oder ihre Beispiele aus vielen Versuchen ausgewählt haben.
Trotz ihrer Behauptungen ist diese missbräuchliche Nutzung nicht typisch oder erlaubt, und ist kein Ersatz für die New York Times. Ungeachtet dessen arbeiten wir kontinuierlich daran, unsere Systeme resistenter gegen feindliche Angriffe zu machen, um Trainingsdaten zu regurgitieren, und haben bereits in unseren neuesten Modellen große Fortschritte erzielt.“
Diese Behauptung läuft im Grunde darauf hinaus, dass die NYT versucht hat, ChatGPT gezielt so zu beeinflussen, dass Antworten nahe an ihren Artikeln produziert werden, und sich selektiv auf diese Antworten aus vielen möglichen Antworten konzentriert hat, um ihren Fall zu stärken, was OpenAI als inakzeptables Nutzerverhalten ansieht und technisch zu verhindern arbeitet.
Als Antwort darauf hat ein Sprecher von Trident DMG, einer Kommunikationsfirma, die angibt, die NYT zu vertreten, per E-Mail eine Stellungnahme eines Anwalts der NYT an VentureBeat gesendet:
Laut Ian Crosby, Partner bei Susman Godfrey und leitender Anwalt der New York Times, räume der Blog-Artikel ein, dass OpenAI die Arbeit der Times zusammen mit der Arbeit vieler anderer verwendet hat, um ChatGPT zu entwickeln. Wie in der Beschwerde der Times ausgeführt, ‚suchen die Beklagten durch Microsofts Bing Chat (kürzlich umbenannt in ‚Copilot‘) und OpenAIs ChatGPT ohne Erlaubnis oder Zahlung auf der massiven Investition der Times in ihren Journalismus zu free-riden, indem sie es verwenden, um substitutive Produkte zu entwickeln.‘ Das ist nach keinem Maßstab fairer Gebrauch.
OpenAI und die NYT werden sich vor dem Bundesbezirksgericht unter Richter Sidney H. Stein gegenüberstehen, obwohl unsere Überprüfung des Fallregisters kein Datum für eine erste Anhörung zeigte. Das Register zeigt auch nicht, dass dieser Blogpost als Argument oder Beweis eingereicht wurde, allerdings wird wahrscheinlich eine Version davon, die eine Abweisung fordert, letztendlich dort erscheinen.
Mit zunehmenden Beispielen zahlreicher KI-Dienste, die urheberrechtlich geschütztes Material reproduzieren – einschließlich des KI-Bildgenerators Midjourney, der bereits von Künstlern verklagt und von einem Künstler und KI-Unternehmer Gary Marcus in einem kürzlich veröffentlichten Gastartikel im IEEE Spectrum kritisiert wurde, komplett mit Beispielen – wird 2024 höchstwahrscheinlich ein entscheidendes Jahr für die Technologie und die Rechtmäßigkeit ihrer kontroversen Trainingsdatenquellen sein.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.