热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_30394975
Minchern
2 年前
trueweixin_30394975

LLM安全基础入门:迎头赶上

https://kleiber.me/blog/2024/03/17/llm-security-primer/

作者:@冯刚廷

CSDN App 扫码分享
分享
评论
点赞
  • 复制链接
  • 举报
下一条:
学习伪装:通过多智能体攻击者-伪装者游戏避免语言模型的拒绝响应防御"我们提出一种多智能体攻击者-伪装者游戏方法来实现一种弱防御机制,该机制允许大型模型既能安全地回复攻击者,又能隐藏其防御意图。首先,我们构建了一个多智能体框架来模拟攻击与防御情境,扮演不同的角色来负责攻击、伪装、安全评估和伪装评估任务"论文链接:https://arxiv.org/abs/2404.02532v1
立即登录