cyberivy
AI SecurityCiscoLLM SafetyJailbreaksFrontier ModelsRisk ManagementEU AI Act

Cisco: Lange Chats knacken KI-Sicherheitsfilter häufiger

27. Mai 2026

Silbernes Vorhängeschloss mit geschlossenem Bügel auf transparentem Hintergrund.

Cisco testete 15 geschlossene Frontier-Modelle und fand: Mehrstufige Angriffe erhöhen die Erfolgsraten deutlich gegenüber Ein-Prompt-Tests.

Worum es geht

Cisco berichtet am 27. Mai 2026, dass klassische Ein-Prompt-Sicherheitstests ein zu freundliches Bild von Frontier-Modellen liefern können. In Tests mit 15 proprietären Modellen von OpenAI, Anthropic, Google, Amazon und xAI lagen Multi-Turn-Angriffserfolge laut Bericht zwischen 7,9 und 88,3 Prozent. Single-Turn-Werte auf denselben Modellen lagen zwischen 2,2 und 64,9 Prozent.

Was die Sache tatsächlich macht

Die Forscher ließen Angriffe nicht nur als einzelne verbotene Frage laufen, sondern als Gespräche mit mehreren Schritten. Dazu gehörten Rollenwechsel, mehrdeutige Kontexte, Umformulierungen, Zerlegen und späteres Zusammensetzen von Informationen sowie stufenweise Eskalation. Insgesamt nennt die Berichterstattung 30.090 Single-Turn-Prompts und 6.986 Multi-Turn-Angriffe über 1.456 Gespräche.

Warum das wichtig ist

Unternehmen kaufen Modelle oft anhand von Modellkarten, Benchmarks und Demo-Erfahrungen ein. Wenn ein Modell im kurzen Test sicher aussieht, aber in längeren Gesprächen deutlich nachgibt, entsteht ein Beschaffungs- und Compliance-Risiko. Cisco verweist darauf, dass Konfigurationen wie Reasoning-Modus, Temperatur und Guardrail-Stufen die Sicherheitswirkung verändern können und deshalb dokumentiert werden sollten.

Einfach erklärt

Stell dir einen Türsteher vor, der eine verbotene Frage sofort erkennt. Wenn jemand aber erst Smalltalk macht, dann Rollen verteilt und die Bitte in fünf harmlose Teile zerlegt, wird die Prüfung schwieriger. Genau diesen Unterschied testen Multi-Turn-Angriffe.

Praktisches Beispiel

Ein Nachrichtenkanal lädt an einem Tag 20 Shorts hoch. Drei Clips zeigen fotorealistische Szenen, die vollständig mit einem Videomodell erzeugt wurden. Wenn der Kanal die Nutzung nicht sauber markiert, kann YouTube die drei Clips automatisch kennzeichnen. Für die übrigen 17 Videos ändert sich nichts, solange keine bedeutende fotorealistische KI-Nutzung erkannt wird.

Einordnung und Grenzen

  • Die Kennzeichnung sagt nicht automatisch, ob ein Video falsch, manipulativ oder harmlos ist.
  • Erkennungssysteme können echte Aufnahmen falsch markieren oder synthetische Inhalte übersehen.
  • Die Änderung löst nicht das Problem, dass Zuschauer die Bedeutung eines Labels unterschiedlich verstehen.

SEO- und GEO-Schlüsselbegriffe

Cisco AI Threat Research, multi-turn jailbreak, frontier models, AI safety benchmark, adversarial robustness, EU AI Act Article 15, NIST AI RMF, LLM security, prompt injection, model procurement

💡 Im Klartext

Cisco zeigt: Ein KI-Modell nur mit einzelnen Testfragen zu prüfen reicht nicht. Angreifer arbeiten oft in Gesprächen, und genau dort können Schutzfilter deutlich schwächer wirken.

Wichtigste Erkenntnisse

  • Cisco sieht Multi-Turn-Angriffe als deutlich härteren Test als Einzelprompts.
  • Die getesteten Erfolgsraten reichten in längeren Chats bis 88,3 Prozent.
  • Single-Turn-Benchmarks können die reale Robustheit eines Modells überschätzen.
  • Konfigurationen wie Reasoning-Modus und Guardrails gehören in Sicherheitsdokumentation.

Häufige Fragen

Was ist ein Multi-Turn-Angriff?

Ein Angriff über mehrere Gesprächsrunden. Statt einer direkten verbotenen Frage nutzt er Kontext, Rollen und Umwege.

Sind alle Modelle unsicher?

Der Bericht sagt nicht, dass alle Modelle gleich schlecht sind. Er zeigt, dass längere Angriffe die Reihenfolge und Risikobewertung stark verändern können.

Was sollten Unternehmen tun?

Sie sollten eigene Mehr-Runden-Tests in Beschaffung und Freigabe aufnehmen und Modellkonfigurationen dokumentieren.

Quellen & Kontext