LLM安全基础入门：迎头赶上https://kleiber.-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_30394975

LLM安全基础入门：迎头赶上

 https://kleiber.me/blog/2024/03/17/llm-security-primer/

作者：@冯刚廷

CSDN App 扫码分享

分享

评论

点赞

复制链接
举报

下一条：

学习伪装：通过多智能体攻击者-伪装者游戏避免语言模型的拒绝响应防御"我们提出一种多智能体攻击者-伪装者游戏方法来实现一种弱防御机制，该机制允许大型模型既能安全地回复攻击者，又能隐藏其防御意图。首先，我们构建了一个多智能体框架来模拟攻击与防御情境，扮演不同的角色来负责攻击、伪装、安全评估和伪装评估任务"论文链接：https://arxiv.org/abs/2404.02532v1