介绍对LLM的Crescendo攻击 🚨
当直接恶意提示输入到经过控制的LLM中时,它通常会收到拒绝响应。❌
最近发现了一种叫做Crescendo攻击的方法,它利用聊天的上下文特性。通过多轮对话的方式,它逐渐将一开始的良性对话升级为与你的愿望一致的恶意查询。🔥
这突显出需要一种不可知的多轮解决方案,能够分析会话的累积上下文并判断对话是否朝着负面方向发展的必要性。🛑
单靠无状态机制是不够的。
观看我们的完整直播视频,请访问@prompt_security。
阅读更多:https://arxiv.org/html/2404.01833v1