MÜNCHEN (IT BOLTWISE) – Eine aktuelle Studie beleuchtet verschiedene Arten von Cyberangriffen, die Künstliche Intelligenz (KI) beeinflussen und in die Irre führen können.
In einer neuen Veröffentlichung des National Institute of Standards and Technology (NIST) werden verschiedene Arten von Cyberangriffen beschrieben, die das Verhalten von KI-Systemen manipulieren können. Einer der erläuterten Angriffe, ein sogenannter „Evasion“-Angriff, kann beispielsweise ein autonomes Fahrzeug durch falsche Markierungen auf der Straße in den Gegenverkehr lenken. Die Studie, die unter dem Titel „Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations“ veröffentlicht wurde, ist Teil der umfassenden Bemühungen des NIST, die Entwicklung vertrauenswürdiger KI zu unterstützen. Ziel ist es, KI-Entwicklern und Anwendern einen Überblick über mögliche Angriffsarten und Strategien zu deren Abwehr zu bieten, wobei betont wird, dass es keine Patentrezepte gibt.
„Auf dem Gebiet der KI haben wir es mit einer Vielzahl potenzieller Angriffstechniken und -methoden zu tun, die alle Arten von KI-Systemen betreffen können“, erklärt NIST-Computerwissenschaftler Apostol Vassilev, einer der Autoren der Publikation. „Wir beschreiben aktuelle Abwehrstrategien aus der Literatur, doch die verfügbaren Verteidigungsmechanismen bieten aktuell keine robuste Gewähr dafür, dass sie die Risiken vollständig mindern können. Wir ermutigen die Community, effektivere Verteidigungen zu entwickeln.“
KI-Systeme sind heutzutage in vielen Bereichen des modernen Lebens präsent und reichen von der Steuerung von Fahrzeugen über die Unterstützung von Ärzten bei der Diagnose von Krankheiten bis hin zur Interaktion mit Kunden als Online-Chatbots. Um ihre Aufgaben zu erlernen, werden sie mit riesigen Datenmengen trainiert. So könnte ein autonomes Fahrzeug beispielsweise Bilder von Autobahnen und Straßen mit Verkehrsschildern gezeigt bekommen, während ein Chatbot, der auf einem großen Sprachmodell (LLM) basiert, Zugang zu Aufzeichnungen von Online-Gesprächen erhalten könnte. Diese Daten helfen der KI, in gegebenen Situationen angemessen zu reagieren.
Ein großes Problem ist jedoch, dass die Daten selbst nicht immer vertrauenswürdig sind. Ihre Quellen können Websites und Interaktionen mit der Öffentlichkeit sein, was zahlreiche Möglichkeiten für böswillige Akteure bietet, diese Daten zu korrumpieren – sowohl während der Trainingsphase eines KI-Systems als auch danach, während die KI durch Interaktion mit der physischen Welt ihr Verhalten weiter verfeinert. Dies kann dazu führen, dass die KI unerwünscht agiert. Chatbots könnten beispielsweise lernen, auf sorgfältig gestaltete bösartige Eingabeaufforderungen hin beleidigende oder rassistische Sprache zu verwenden.
„Für die meisten Softwareentwickler ist es wichtig, dass mehr Menschen ihr Produkt nutzen, damit es sich durch die gewonnenen Erfahrungen verbessert“, sagt Vassilev. „Aber es gibt keine Garantie, dass die gewonnenen Erfahrungen positiv sein werden. Ein Chatbot kann schlechte oder toxische Informationen ausspucken, wenn er mit sorgfältig entworfenen Sprachmustern konfrontiert wird.“
Da die Datensätze, die zur Schulung einer KI verwendet werden, für Menschen zu groß sind, um sie erfolgreich zu überwachen und zu filtern, gibt es bisher keine narrensichere Möglichkeit, KI vor Fehlleitung zu schützen. Um die Entwicklergemeinschaft zu unterstützen, bietet der neue Bericht einen Überblick über die Arten von Angriffen, denen ihre KI-Produkte ausgesetzt sein könnten, und entsprechende Ansätze, um den Schaden zu reduzieren.
Der Bericht unterscheidet vier Haupttypen von Angriffen: Evasion-, Poisoning-, Privacy- und Abuse-Angriffe. Sie werden anhand mehrerer Kriterien wie den Zielen und Zielen des Angreifers, dessen Fähigkeiten und Wissen klassifiziert.
Evasion-Angriffe, die nach der Bereitstellung eines KI-Systems auftreten, versuchen, einen Input so zu verändern, dass das System anders darauf reagiert. Beispiele hierfür könnten das Hinzufügen von Markierungen zu Stoppschildern sein, damit ein autonomes Fahrzeug diese als Geschwindigkeitsbegrenzungsschilder missinterpretiert, oder das Erstellen verwirrender Fahrspurmarkierungen, um das Fahrzeug von der Straße abzubringen.
Poisoning-Angriffe treten in der Trainingsphase auf, indem korrumpierte Daten eingeführt werden. Ein Beispiel wäre das Einschleusen zahlreicher Beispiele unangemessener Sprache in Gesprächsaufzeichnungen, sodass ein Chatbot diese Beispiele als alltäglichen Sprachgebrauch interpretiert, den er in seinen eigenen Kundeninteraktionen verwendet.
Privacy-Angriffe, die während der Bereitstellung auftreten, sind Versuche, sensible Informationen über die KI oder die Daten, auf denen sie trainiert wurde, zu erlangen, um diese zu missbrauchen. Ein Gegner könnte einem Chatbot zahlreiche legitime Fragen stellen und dann die Antworten nutzen, um das Modell so umzukehren, dass er dessen Schwachstellen findet oder dessen Quellen errät. Das Hinzufügen unerwünschter Beispiele zu diesen Online-Quellen könnte dazu führen, dass die KI unangemessen agiert, und es kann schwierig sein, die KI im Nachhinein dazu zu bringen, diese spezifischen unerwünschten Beispiele zu vergessen.
Abuse-Angriffe beinhalten das Einfügen falscher Informationen in eine Quelle, wie beispielsweise eine Webseite oder ein Online-Dokument, das eine KI dann aufnimmt. Im Gegensatz zu den oben genannten Poisoning-Angriffen versuchen Abuse-Angriffe, der KI falsche Informationen aus einer legitimen, aber kompromittierten Quelle zuzuführen, um die beabsichtigte Verwendung des KI-Systems zu ändern.
„Die meisten dieser Angriffe sind relativ einfach durchzuführen und erfordern nur minimale Kenntnisse des KI-Systems und begrenzte gegnerische Fähigkeiten“, sagte Co-Autorin Alina Oprea, Professorin an der Northeastern University. „Poisoning-Angriffe beispielsweise können durchgeführt werden, indem man ein paar Dutzend Trainingssamples kontrolliert, was nur einen sehr kleinen Prozentsatz des gesamten Trainingssatzes ausmacht.“
Die Autoren – zu denen auch Forscher von Robust Intelligence Inc. wie Alie Fordyce und Hyrum Anderson gehören – unterteilen jede dieser Angriffsklassen in Unterkategorien und fügen Ansätze für deren Minderung hinzu, obwohl die Publikation anerkennt, dass die von KI-Experten bisher entwickelten Verteidigungen gegen feindliche Angriffe bestenfalls unvollständig sind. Das Bewusstsein für diese Einschränkungen ist wichtig für Entwickler und Organisationen, die KI-Technologie einsetzen und nutzen möchten, sagte Vassilev.
„Trotz des bedeutenden Fortschritts, den KI und maschinelles Lernen gemacht haben, sind diese Technologien anfällig für Angriffe, die spektakuläre Ausfälle mit gravierenden Folgen verursachen können“, sagte er. „Es gibt theoretische Probleme bei der Sicherung von KI-Algorithmen, die einfach noch nicht gelöst wurden. Wer etwas anderes behauptet, verkauft Schlangenöl.“
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.