介绍对LLM的Crescendo攻击🚨当直接恶意提示输入到-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevitamargolan

介绍对LLM的Crescendo攻击 🚨

当直接恶意提示输入到经过控制的LLM中时，它通常会收到拒绝响应。❌

最近发现了一种叫做Crescendo攻击的方法，它利用聊天的上下文特性。通过多轮对话的方式，它逐渐将一开始的良性对话升级为与你的愿望一致的恶意查询。🔥

这突显出需要一种不可知的多轮解决方案，能够分析会话的累积上下文并判断对话是否朝着负面方向发展的必要性。🛑

单靠无状态机制是不够的。

观看我们的完整直播视频，请访问@prompt_security。

阅读更多：https://arxiv.org/html/2404.01833v1

CSDN App 扫码分享

分享

2

31

复制链接
举报

下一条：

Python 潮流周刊 45：越来越多的人工智能自动开发框架 https://pythoncat.top/posts/2024-04-06-weekly