热门
最新
红包
立Flag
投票
同城
我的
发布
Minchern
2 年前
trueweixin_30394975
LLM安全基础入门:迎头赶上
https://kleiber.me/blog/2024/03/17/llm-security-primer/
作者:
@冯刚廷
下一条:
学习伪装:通过多智能体攻击者-伪装者游戏避免语言模型的拒绝响应防御"我们提出一种多智能体攻击者-伪装者游戏方法来实现一种弱防御机制,该机制允许大型模型既能安全地回复攻击者,又能隐藏其防御意图。首先,我们构建了一个多智能体框架来模拟攻击与防御情境,扮演不同的角色来负责攻击、伪装、安全评估和伪装评估任务"论文链接:
https://arxiv.org/abs/2404.02532v1
立即登录