AI Security Assessment ▶ KI-Sicherheit prüfen

Was ist ein AI Security Assessment?

Der Einsatz von künstlicher Intelligenz (KI) in Unternehmen geht heute weit über einfache Chatbots hinaus. Moderne KI-Anwendungen reichen von LLM-basierten Chat-Applikationen über RAG-Systeme mit Zugriff auf interne Wissensquellen bis hin zu KI-Agenten, die externe Tools und APIs nutzen. Diese Systeme verarbeiten zunehmend geschäftskritische Daten und sind eng in bestehende Geschäftsprozesse und IT-Landschaften eingebunden.

Aus Sicherheitsperspektive ist dabei nicht allein das Sprachmodell relevant, sondern die vollständige KI-Anwendung: Modell, Kontextaufbau, RAG-Pipeline, Orchestrierungslogik, Tools und APIs, Berechtigungen, Datenflüsse, Ausgabeverarbeitung und Betriebsumgebung. Wir prüfen daher nicht das Modell isoliert, sondern die konkrete Implementierung im Unternehmenskontext. So wird sichtbar, welche Angriffe tatsächlich möglich sind, welche Aktionen ein System auslösen kann und welcher geschäftliche Schaden daraus entstehen kann.

Viele LLM-basierte KI-Anwendungen verhalten sich zudem nichtdeterministisch — ihre Ausgaben sind kontextabhängig und nur eingeschränkt vorhersagbar, da ein wesentlicher Teil der Steuerungslogik im Sprachmodell selbst liegt. Diese modell- und kontextspezifischen Risiken erfordern spezialisierte Prüfmethoden. Häufig entstehen in realen Projekten besonders kritische Risiken durch überprivilegierte Agenten und Integrationen, etwa wenn ein Assistent Zugriff auf vollständige SharePoint-Bereiche, HR-Datenbanken oder andere sensible Datenquellen erhält. Gleichzeitig bleiben klassische Schwachstellen relevant: unsichere APIs, Broken Access Control, XSS, SSRF, Remote Code Execution, Fehlkonfigurationen oder unzureichendes Logging können in KI-Systemen ebenso ausnutzbar sein und den Impact KI-spezifischer Angriffe deutlich erhöhen.

placeholder for background/neural-network.jpg

Ziel

Identifikation von Schwachstellen in KI-basierten Anwendungen und Bewertung der Risiken hinsichtlich KI-spezifischer Bedrohungsszenarien

Fragestellung

Wie widerstandsfähig ist die KI-Anwendung gegenüber Prompt-Injektionen, Datenmanipulation und Missbrauch und was können Angreifer im schlimmsten Fall erreichen?

Scope

LLM-Integrationen, RAG-Pipelines, agentische Systeme, KI-Modelle, APIs und umgebende Infrastruktur

AI Security Assessment Ablauf: Methodik & Vorgehen

Mit dem AI Security Assessment bieten wir Ihnen eine systematische Prüfung Ihrer KI-basierten Anwendungen hinsichtlich KI-spezifischer Schwachstellen und Fehlkonfigurationen. Aufbauend auf etablierten Frameworks wie den OWASP Top 10 for LLM Applications 2025, den OWASP Top 10 for Agentic Applications 2026 sowie der MITRE ATLAS Wissensdatenbank kombinieren wir automatisierte Angriffstechniken mit expertengestützten manuellen Tests.

Das Assessment beginnt üblicherweise mit einem Workshop zur Bedrohungsanalyse , mit dem Ziel, die Architektur der KI-Anwendung, Datenflüsse und Vertrauensgrenzen zu verstehen und daraus spezifische Bedrohungsszenarien abzuleiten. Dabei ist eine klare Abgrenzung der verschiedenen Systemtypen und ihrer Architekturkomponenten notwendig: LLM-basierte Chat-Applikationen, RAG-Systeme mit angebundenen Datenquellen und agentische Systeme mit Tool-Zugriff und autonomer Entscheidungsfindung weisen jeweils unterschiedliche Angriffsflächen und Risikoprofile auf.

Ein zentraler Bestandteil der Bedrohungsanalyse ist die Untersuchung des Informationsflusses entlang der gesamten Verarbeitungskette. Hierbei werden insbesondere die Vertrauensgrenzen zwischen den Systemkomponenten identifiziert: An welchen Stellen gelangen nicht vertrauenswürdige Eingaben — etwa Benutzeranfragen, hochgeladene Dokumente oder extern abgerufene Inhalte — in den Verarbeitungsprozess? Wie und wo werden diese Daten mit dem Modellkontext zusammengeführt? Und vor allem: Welche Datenflüsse und Entscheidungen finden innerhalb des LLM-Kontexts statt und sind damit durch einen Angreifer über manipulierte Eingaben beeinflussbar? Auf Basis dieser Analyse leiten wir konkrete Angriffsszenarien ab und priorisieren die resultierenden Testfälle nach Geschäftskontext und technischem Risiko.

Grundsätzlich erfolgt das Assessment mit dem Ansatz einer möglichst umfassenden Prüfung. Abhängig von der Art der Anwendung bzw. des Systems und der relevanten Bedrohungen ist jedoch auch ein risikobasierter Ansatz möglich (vergleichbar mit einem Penetrationstest ). Dabei wird der Fokus auf besonders sicherheitskritische bzw. gefährdete Bereiche gerichtet, wobei sich der Prüfungsumfang aus dem im Vorfeld vereinbarten Zeitbudget ergibt.

Basierend auf den Ergebnissen der Bedrohungsanalyse erfolgen automatisierte sowie manuelle Analysen zur Identifikation von Schwachstellen. In einem ersten Schritt setzen wir spezialisierte Werkzeuge ein, die eine große Bandbreite an Angriffsvarianten automatisiert gegen die KI-Anwendung ausführen — über verschiedene Eingabemodalitäten hinweg, einschließlich Text sowie, sofern im Scope, Dateien und Bilder. Diese automatisierten Tests decken insbesondere bekannte Angriffskategorien systematisch ab. Da sie jedoch konstruktionsbedingt auf vordefinierte Muster beschränkt sind, ergänzen unsere Prüfer die Ergebnisse durch gezielte manuelle Analysen. Dabei bewerten sie die Befunde im Kontext der konkreten Systemarchitektur, untersuchen die Orchestrierungslogik auf logische Schwachstellen und führen anwendungsspezifische Angriffsszenarien durch, die über standardisierte Prüfkataloge hinausgehen.

Da viele LLM-basierte KI-Systeme sich nichtdeterministisch verhalten, führen wir Angriffe gezielt mehrfach und in Variationen durch, um die tatsächliche Ausnutzbarkeit belastbar einschätzen zu können. Wir bewerten dabei sowohl die Reproduzierbarkeit als auch die Zuverlässigkeit identifizierter Schwachstellen, um fundierte Risikobewertungen statt einzelner Momentaufnahmen zu liefern. Ein Gray- oder White-Box-Ansatz ist zu empfehlen.

Kernbestandteile eines SCHUTZWERK AI Security Assessments

LLM-basierte Applikationen lassen sich nach ihrem Autonomiegrad meist einer von drei Kategorien zuordnen: Chat-Applikationen, RAG-Systeme und agentische Systeme. Je nach Typ und Architektur der zu prüfenden Anwendung werden im Rahmen des Assessments unter anderem folgende Bereiche untersucht:

Prompt-Injection und Jailbreak-Resistenz

Prüfung auf direkte Prompt-Injektionen (Manipulation über Benutzereingaben)
Prüfung auf indirekte Prompt-Injektionen (eingeschleuste Anweisungen in externen Datenquellen, Dokumenten oder E-Mails)
Prüfung auf Multi-Turn-Angriffe (verteilte bösartige Anweisungen über mehrere Nachrichten)
Prüfung der Wirksamkeit implementierter Schutzmechanismen (z. B. System-Prompt-Härtung, Eingabefilter, Output-Validierung)

Offenlegung sensibler Informationen

Prüfung auf Offenlegung von System-Prompts und internen Konfigurationen
Prüfung auf Datenlecks durch Modellausgaben (personenbezogene Daten, Geschäftsgeheimnisse, Zugangsdaten)
Prüfung der Datenabflusskontrolle über den Kontext hinweg

Ausgabeverarbeitung und Output-Handling

Prüfung auf unsichere Verarbeitung von Modellausgaben in nachgelagerten Komponenten (z. B. Export, Browser, Shells, Automatisierungssysteme)
Prüfung auf klassische Angriffsvektoren durch manipulierte Ausgaben (XSS, SSRF, Remote Code Execution)
Prüfung der Eingabe- und Ausgabevalidierung sowie der Bereinigung über alle Formate (z.B. Text, Audio, Dateien, Bilder)

RAG-Pipeline-Sicherheit

Prüfung auf Document Poisoning (Einschleusen manipulierter Dokumente in die Wissensbasis)
Prüfung der Zugriffskontrolle auf Dokumentenebene
Prüfung der Vektordatenbank und Embedding-Integrität

Agentische Sicherheit

Prüfung auf Agent Goal Hijacking (Umleitung des Agenten auf unbeabsichtigte Ziele)
Prüfung auf Tool Misuse und Privilege Escalation
Prüfung auf überprivilegierte Agenten und Integrationen mit Zugriff auf zu umfangreiche Datenquellen oder Funktionen
Prüfung auf Memory Poisoning (Manipulation des persistenten Agentenspeichers)
Prüfung der Berechtigungsgrenzen und des Least-Privilege-Prinzips
Prüfung auf Agent Communication Poisoning in Multi-Agent-Systemen
Prüfung von MCP-Server-Integrationen (Tool Poisoning, Command Injection, Privilege Escalation via Scope Creep)
Prüfung der sicheren Integration von MCP-Servern und externen APIs (Authentifizierung, Eingabevalidierung, Berechtigungsabgrenzung)

Ressourcen und Verfügbarkeit

Prüfung auf ressourcenbasierte Angriffe (Denial of Wallet — gezielte Eingaben, die Kosten oder Ressourcenverbrauch der Inferenz-Infrastruktur massiv erhöhen)
Prüfung auf Unbounded Consumption (fehlende Ratenlimitierung, übermäßiger Token-Verbrauch)

Supply-Chain und Infrastruktur

Prüfung der Supply-Chain-Sicherheit von Frameworks, Modellen und Abhängigkeiten
Prüfung der Sicherheit der Modell-Hosting- und Inferenz-Infrastruktur
Prüfung der Zugriffskontrollen und Autorisierung für KI-Komponenten und APIs
Prüfung von Logging, Monitoring und Nachvollziehbarkeit von KI-Interaktionen

AI Security Assessment und relevante Regulierungen & Standards

Die Sicherheit von KI-Anwendungen wird durch eine wachsende Zahl an Regulierungen und Standards adressiert. Ein AI Security Assessment unterstützt Sie dabei, die technischen Anforderungen an Robustheit und Cybersicherheit nachweisbar zu erfüllen — insbesondere für Hochrisiko-KI-Systeme:

EU AI Act - Die EU-Verordnung zur Regulierung künstlicher Intelligenz definiert risikobasierte Anforderungen an KI-Systeme, darunter Transparenzpflichten, technische Dokumentation und Anforderungen an die Robustheit und Cybersicherheit. Ein AI Security Assessment unterstützt Sie bei der technischen Verifikation der Anforderungen an Robustheit und Cybersicherheit — insbesondere für Hochrisiko-KI-Systeme gemäß Art. 15 der Verordnung.
OWASP Top 10 for LLM Applications 2025 - Der international anerkannte Katalog der kritischsten Sicherheitsrisiken für KI-Sprachmodelle bildet eine zentrale Grundlage für unsere Prüfmethodik. Er umfasst unter anderem Prompt Injection, Sensitive Information Disclosure, Supply Chain Vulnerabilities und Excessive Agency.
OWASP Top 10 for Agentic Applications 2026 - Dieser ergänzende Katalog adressiert spezifisch die Sicherheitsrisiken agentischer KI-Systeme, darunter Agent Goal Hijack, Tool Misuse und Memory & Context Poisoning.
OWASP MCP Top 10 (Beta) - Dieser sich in Entwicklung befindliche Katalog adressiert die spezifischen Sicherheitsrisiken des Model Context Protocol (MCP), eines zunehmend genutzten Protokolls für die Tool-Integration in KI-Systemen. Zu den identifizierten Risikokategorien zählen unter anderem Tool Poisoning, Command Injection, Privilege Escalation via Scope Creep und Context Injection.
MITRE ATLAS - ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) ist eine Wissensdatenbank gegnerischer Taktiken, Techniken und Fallstudien für KI-Systeme und dient als Referenz für die systematische Prüfung.

Assessment-Ergebnisse: Risikobewertung & Sicherheitsmaßnahmen

Als Ergebnis des Assessments erhalten Sie einen ausführlichen Abschlussbericht. Abhängig von Art und Umfang des Projekts umfasst der Abschlussbericht folgende Bestandteile:

Management Summary mit Zusammenfassung der Ergebnisse und des Sicherheitsniveaus
Beschreibung Projektablauf, Zielsetzung, Umfang und Methodik
Detaillierte Beschreibung der identifizierten Schwachstellen, um diese nachvollziehen und mögliche Angriffe rekonstruieren zu können (ggf. mit Proof-of-Concept-Implementierungen)
Detaillierte Beschreibung des iterativen Vorgehens bei der Ausnutzung verketteter Schwachstellen
Risikobewertung der identifizierten Schwachstellen unter Berücksichtigung des IT-Umfelds bzw. des Anwendungskontextes (Risikoeinstufung: niedrig, mittel, hoch, kritisch)
Beschreibung von Maßnahmen zur Behebung der Schwachstellen
Falls erforderlich auch eine Beschreibung von übergeordneten strategie-, konzept- und prozessbezogenen Maßnahmen oder Optimierungsvorschlägen.

Falls gewünscht, können auch folgende Punkte in den Abschlussbericht aufgenommen werden:

Detailübersicht zur Architektur der KI-Anwendung und den Datenflüssen
Spezifisches Bedrohungsmodell für die KI-Komponenten und deren Integration
Empfehlungen für sichere Entwicklungs- und Betriebspraktiken für KI-Anwendungen
Priorisierte Maßnahmenempfehlungen basierend auf einem Defense-in-Depth-Ansatz

AI Security Assessment