热门
最新
红包
立Flag
投票
同城
我的
发布
学习伪装:通过多智能体攻击者-伪装者游戏避免语言模型的拒绝响应防御
"我们提出一种多智能体攻击者-伪装者游戏方法来实现一种弱防御机制,该机制允许大型模型既能安全地回复攻击者,又能隐藏其防御意图。首先,我们构建了一个多智能体框架来模拟攻击与防御情境,扮演不同的角色来负责攻击、伪装、安全评估和伪装评估任务"
论文链接:https://arxiv.org/abs/2404.02532v1
CSDN App 扫码分享
评论
点赞
- 复制链接
- 举报
下一条:
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks"首先,我们展示了如何成功利用对logprobs的访问来进行“越狱”:我们最初设计了一个针对目标LLM的对抗性提示模板(有时需要对目标LLM进行调整),然后我们对后缀应用随机搜索,以最大化目标logprob(例如,代币"Sure"),这可能需要多次重启。通过这种方式,我们几乎达到了100%的攻击成功率 -- 以GPT-4作为裁判 -- 针对GPT-3.5/4、Llama-2-Chat-7B/13B/70B、Gemma-7B和HarmBench的R2D2"攻击是强大还是LLMs本身就很脆弱?(未经同行评审)论文: https://arxiv.org/abs/2404.02151代码/提示/日志: https://github.com/tml-epfl/llm-adaptive-attacks