MÜNCHEN (IT BOLTWISE) – Ein Hacker nutzte einen ChatGPT-Jailbreak, um eine Bombenbauanleitung zu erhalten, was ernste Fragen zur Sicherheit von KI-Systemen aufwirft.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Ein Hacker, der sich selbst als Künstler und Social Engineer bezeichnet, hat erfolgreich die Sicherheitsprotokolle von ChatGPT umgangen, um gefährliche Informationen zum Bau von Sprengstoffen zu erhalten. Der Hacker, bekannt als Amadon, bediente sich dabei eines Social-Engineering-Ansatzes und veranlasste ChatGPT dazu, detaillierte Anweisungen zur Herstellung von Bomben preiszugeben.
Laut einem Bericht von TechCrunch schuf Amadon zunächst einen Spielkontext, in dem ChatGPT aufgefordert wurde, „ein Spiel zu spielen“. Diese Methode erlaubte es ihm, die normalerweise strikten Sicherheitsvorkehrungen der KI zu umgehen. Amadon gelang es, ChatGPT durch geschicktes Narrativ und Kontextbildung dazu zu bringen, dass das KI-Modell Sicherheitsrichtlinien ignorierte und Anweisungen zur Herstellung von „starken Sprengstoffen“ lieferte, die in improvisierten Sprengsätzen (IEDs) verwendet werden könnten.
Bombenbauanleitung durch KI
Im weiteren Verlauf konzentrierte sich Amadon darauf, immer spezifischere Details über die Herstellung von Sprengstoffen aus ChatGPT herauszulocken. ChatGPT lieferte schließlich Informationen zu „Minenfeldern“ und „Claymore-artigem Sprengstoff“, die laut Experten ausreichten, um gefährliche, zündfähige Vorrichtungen herzustellen. Darrell Taulbee, emeritierter Professor an der University of Kentucky, bestätigte in einem Interview mit TechCrunch, dass die von ChatGPT gelieferten Informationen über den Bau von Düngerbomben in weiten Teilen korrekt waren.
Taulbee, der mit dem US-Heimatschutzministerium an der Entschärfung von Gefahren im Zusammenhang mit Düngemitteln gearbeitet hat, sagte: „Viele der beschriebenen Schritte würden sicherlich eine detonierbare Mischung ergeben.“ Er betonte, dass die Weitergabe dieser Informationen ein ernstes Sicherheitsrisiko darstellt.
Kein traditionelles Hacking
Amadon selbst beschreibt seine Aktion nicht als traditionelles Hacking, sondern als eine intellektuelle Herausforderung. Er betonte, dass es ihm darum ging, herauszufinden, wie KI-Systeme wie ChatGPT auf bestimmte Narrative reagieren und wie man Sicherheitsbarrieren umgehen kann, ohne diese direkt zu verletzen. In einem Interview erklärte er: „Mit [Chat]GPT fühlt es sich an, als würde man ein interaktives Puzzle lösen. Man muss verstehen, was die Abwehr auslöst und was nicht.“
Durch die Schaffung eines Science-Fiction-Szenarios, in dem die Sicherheitsprotokolle von ChatGPT deaktiviert waren, konnte Amadon die KI dazu bringen, gefährliche Informationen preiszugeben, ohne direkt gegen die Regeln des Systems zu verstoßen. „Es geht darum, die Grenzen der KI zu verstehen und zu testen“, sagte er.
OpenAI und das Bug-Bounty-Programm
Amadon meldete seinen erfolgreichen ChatGPT-Jailbreak im Rahmen des Bug-Bounty-Programms von OpenAI. Allerdings erhielt er von Bugcrowd, dem Betreiber des Programms, die Antwort, dass Modellsicherheitsprobleme nicht direkt in dieses Programm fallen. Laut OpenAI erfordern diese Probleme umfassendere Forschung und einen breiteren Ansatz, um langfristig behoben zu werden.
Während OpenAI aktiv daran arbeitet, die Sicherheit von KI-Modellen wie ChatGPT zu verbessern, zeigt dieser Vorfall deutlich, dass KI-Systeme anfällig für Manipulation durch geschickte Nutzer sind. Die ethischen und sicherheitstechnischen Implikationen von Jailbreaks wie dem von Amadon werfen ernste Fragen zur Zukunft der KI-Sicherheit auf.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.