JailbreakingLeadingSafety-Alig-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_30394975

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

"首先，我们展示了如何成功利用对logprobs的访问来进行“越狱”：我们最初设计了一个针对目标LLM的对抗性提示模板（有时需要对目标LLM进行调整），然后我们对后缀应用随机搜索，以最大化目标logprob（例如，代币"Sure"），这可能需要多次重启。通过这种方式，我们几乎达到了100%的攻击成功率 -- 以GPT-4作为裁判 -- 针对GPT-3.5/4、Llama-2-Chat-7B/13B/70B、Gemma-7B和HarmBench的R2D2"

攻击是强大还是LLMs本身就很脆弱？

（未经同行评审）

论文: https://arxiv.org/abs/2404.02151
代码/提示/日志: https://github.com/tml-epfl/llm-adaptive-attacks

CSDN App 扫码分享

分享

评论

点赞

复制链接
举报

下一条：

针对跟腱：生成模型红队操作的调查 🌶️我们的广泛调查检视了超过120篇论文，提出了一套基于语言模型固有能力的细粒度攻击策略分类体系。此外，我们还开发了搜索者框架，统一了各种自动红队操作方法。此外，我们的调查还涵盖了包括多模态攻击和防御、围绕多语言模型的风险、对无害查询的过度杀伤，以及下游应用的安全性等新领域。（未经同行评审）论文链接：https://arxiv.org/abs/2404.00629合作作者 @像素鱼