JailBreakV-28K:用于评估多模态大型语言模型抵御-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_30394975

JailBreakV-28K: 用于评估多模态大型语言模型抵御越狱攻击鲁棒性的基准测试 🌶️

“我们推出了JailBreakV-28K，这是一个创新的基准测试，旨在评估LLM越狱技术向MLLMs的迁移性，从而评估MLLMs对多种越狱攻击的鲁棒性。”

“我们对10个开源MLLMs的评估揭示了一个显著高的攻击成功率（ASR）”

（未经同行评审）

论文：https://arxiv.org/abs/2404.03027
合作作者：@Unreal丶

CSDN App 扫码分享

分享

评论

点赞

复制链接
举报

下一条：

CantTalkAboutThis: 让语言模型在对话中保持话题相关在为使语言模型能够在对话中保持话题相关性这一领域，存在着显著的数据缺口——这对于将聊天机器人部署到生产中是一个关键方面。我们介绍了CantTalkAboutThis数据集，以帮助语言模型在面向任务的互动中保持专注于当前话题。该数据集由不同领域的广泛对话主题组成的合成对话构成。这些对话中穿插着有意转移聊天机器人预定义话题的干扰轮次。“所有通用目的的大型语言模型(Large Language Models, LLMs)在带有人工注释干扰者的对话中表现出显著的性能下降，如表2所示。我们在合成数据上训练的STAY-ON-TOPIC-43B模型也显示出稍差的结果，但比所有基线模型表现出大幅度的提升”合作作者 @赵浅风论文链接：https://arxiv.org/abs/2404.03820（未经同行评审）