MÜNCHEN (IT BOLTWISE) – Forschende aus den USA haben erstmals systematisch untersucht, wie Cyberkriminelle große Sprachmodelle nutzen und wie gefährlich generative Technologie in diesem Bereich ist.
- News von IT Boltwise® bei LinkedIn abonnieren!
- AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
- Neue Meldungen bequem per eMail via Newsletter erhalten!
- IT Boltwise® bei Facebook als Fan markieren!
- RSS-Feed 2.0 von IT Boltwise® abonnieren!
Die Studie beleuchtet die zunehmende Bedrohung durch sogenannte „Malicious LLM Applications“ oder kurz „Malla“, die von Cyberkriminellen genutzt werden, um schädliche Aktivitäten durchzuführen. Diese Anwendungen greifen auf die Fähigkeiten von großen Sprachmodellen zurück, um Phishing-E-Mails, Schadcode und betrügerische Websites zu erstellen. Besonders alarmierend ist, dass Malla es selbst technisch wenig versierten Personen ermöglicht, komplexe Cyberangriffe durchzuführen. Laut den Forschenden hebt dies die Bedrohung auf ein „beispielloses Niveau“.
Ein wichtiges Ergebnis der Studie zeigt, dass Cyberkriminelle nicht auf eigene Sprachmodelle angewiesen sind. Stattdessen nutzen sie öffentliche APIs bestehender Sprachmodelle, darunter Modelle von OpenAI und Anthropic, und umgehen deren Sicherheitsmechanismen durch spezielle Prompts. Neben diesen Modellen greifen sie auch zunehmend auf unzensierte oder Open-Source-Modelle zurück, die zum Beispiel über Plattformen wie Huggingface verfügbar sind.
Die Analyse identifiziert acht große Sprachmodelle, die von Malla genutzt werden, sowie 182 spezifische Prompts, mit denen Schutzmaßnahmen umgangen werden. OpenAIs GPT-3.5-turbo war dabei das am häufigsten angegriffene Modell. Weitere betroffene Modelle waren Claude-instant und Claude-2–100k von Anthropic sowie Open-Source-Varianten von Metas Llama-2.
Besorgniserregend ist die Fähigkeit von Malla-Diensten, unentdeckten Schadcode zu generieren. In Tests konnte etwa der von Malla generierte Code von keinem der üblichen Antiviren-Programme wie VirusTotal erkannt werden. Ebenso erstellte der Service WolfGPT besonders überzeugende Phishing-E-Mails.
Die Studie zeigt jedoch auch, dass Maßnahmen gegen diese Bedrohungen wirksam sein können. So stellten einige Dienste wie WolfGPT, Evil-GPT und DarkGPT ihren Betrieb ein, nachdem die zugrunde liegenden Sprachmodelle von OpenAI, wie Davinci-002 und Davinci-003, abgeschaltet wurden. Auch Dienste wie BadGPT und EscapeGPT wurden aufgrund der Schließung ihrer Hosting-Websites unzugänglich.
Die Forschenden sehen jedoch weiterhin ein Problem in der Verfügbarkeit immer mächtigerer Open-Source-Modelle, bei denen Sicherheitsmechanismen bewusst weggelassen werden. Sie fordern, den Zugang zu solchen Modellen nur „vertrauenswürdigen“ Akteuren zu gewähren, was in der Fachwelt jedoch kontrovers diskutiert wird.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.