Indirect Prompt Injections": Sicherheitsrisiken bei KI-Sprachmodellen

"Indirect Prompt Injections": Sicherheitsrisiken bei KI-Sprachmodellen

News

Bildquelle: Diana Polekhina (Unsplash)

10/08/2023 | Datenschutz und Sicherheit | ChatGPT

Was verbirgt sich hinter "Indirect Prompt Injections"? Wie diese Herausforderung die Sicherheit von ChatGPT & Co. beeinflusst

In unserer immer stärker digitalisierten Welt gehören Künstliche Intelligenz (KI) und Maschinelles Lernen zu den Eckpfeilern technologischer Innovationen. Besonders große KI-Sprachmodelle, die natürliche Sprache automatisiert verarbeiten können und die als Large Language Models (LLMs) bekannt sind, haben unsere Interaktionen mit Technologie revolutioniert (siehe dazu den Blogbeitrag “ChatGPT und Wirtschaftsprüfung”). Die Funktionalität der LLMs wird stetig erweitert, wodurch Chatbots beispielsweise über sog. Plugins Internetseiten und Dokumente automatisiert analysieren können. Diese Fortschritte bringen jedoch auch neue Sicherheitsrisiken mit sich - z.B. das Phänomen der "Indirect Prompt Injections".

Während KI-Sprachmodelle zahlreiche Vorteile bieten, bringen sie auch neue Sicherheitsrisiken mit sich. Mehr zum Einsatz von ChatGPT in der Wirtschaftsprüfung sowie dessen Grenzen und Risiken finden IDW Mitglieder in einer IDW Arbeitshilfe. Wir bei SOLON X setzen uns dafür ein, diese Technologien sicher und verantwortungsbewusst zu nutzen. Die Plattform SOLON X stellt Informationen über Digitalisierungsthemen bereit, und bietet mit Tools und Services digitale, auf Wirtschaftsprüfungspraxen zugeschnittene Lösungen.

Was sind “Indirect Prompt Injections”?

"Indirect Prompt Injections" stellen ein Sicherheitsrisiko dar, bei dem Personen mit schädlichen Absichten Daten in unsicheren Quellen manipulieren und unerwünschte Befehle (Prompts) für KI-Sprachmodelle einfügen. Sind diese manipulierten Daten erst einmal im Zugriffsbereich eines KI-Sprachmodells, kann dies zu unerwünschten Handlungen führen, die die Kontrolle des Modells beeinträchtigen.

Wie sehen „Indirect Prompt Injections“ in der Praxis aus?

LLMs, die zur Zusammenfassung oder Analyse von Texten aus externen Quellen verwendet werden, könnten durch unerwünschte Anweisungen manipuliert werden, die in diesen Texten eingebettet sind.
Ein Chatbot, der auf Anfrage des Benutzers Informationen von Websites holt, könnte durch manipulierte Seiten dazu gebracht werden, falsche oder unerwünschte Informationen zu liefern.
Autonome Agenten, die auf LLMs über Programmierschnittstellen (APIs) zugreifen, könnten, falls sie kompromittiert sind, potenziell die Kontrolle über das gesamte System erlangen.

Wie kann man sich vor „Indirect Prompt Injections“ schützen?

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfiehlt eine Risikoanalyse vor der Integration von großen KI-Sprachmodellen in Anwendungen. Dabei sollten mögliche Gefahren und Schwachstellen bewertet werden. Schutzmaßnahmen könnten darin bestehen, den Zugriff des KI-Sprachmodells auf unsichere oder unbekannte Quellen zu vermeiden, eine menschliche Kontrolle und Autorisierung einzuführen und die Möglichkeiten, die ein Sprachmodell ausführen kann, auf ein notwendiges Minimum zu beschränken.