针对跟腱:生成模型红队操作的调查 🌶️我们的广泛调查检视了超过120篇论文,提出了一套基于语言模型固有能力的细粒度攻击策略分类体系。此外,我们还开发了搜索者框架,统一了各种自动红队操作方法。此外,我们的调查还涵盖了包括多模态攻击和防御、围绕多语言模型的风险、对无害查询的过度杀伤,以及下游应用的安全性等新领域。(未经同行评审)论文链接:https://arxiv.org/abs/2404.00629合作作者 @像素鱼