数据资源：大模型漏洞检测数据集PRIMEVUL📖标题：Vu-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

10 月前

truem0_62460975

数据资源：大模型漏洞检测数据集PRIMEVUL
📖标题：Vulnerability Detection with Code Language Models: How Far Are We?
🌐来源：arXiv, 2403.18624

👉文章简介
现有漏洞数据集存在显著缺陷，包括数据质量差、标签准确度低和高重复率，导致模型在实际漏洞检测场景中表现不可靠。本文提出新的数据标注技术，实现了与人工相当的标签准确度，并以此构建了数据集PrimeVul，发现目前模型的漏洞性能被明显高估。

👉主要贡献
🔸对现有数据集进行深入分析，发现数据质量差、标签准确性低、数据重复发生率高等重大缺陷
🔸开发了一个新的漏洞数据集PRIMEVUL，具有高质量、标签准确和不重复的特点
🔸引入了新的评估指南，包括漏洞检测评分(VD-S)和成对评估方法
🔸使用PRIMEVUL评估了一系列代码LM，发现性能明显低于实际部署的要求

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

AI助手代码安全大揭秘：LLM漏洞检测与修复挑战📚 论文标题：Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective🔗 Arxiv ID：2505.10494v1🔑 关键词：code security, usability, large language models (LLMs), benchmark, vulnerability repair📖 太长不看版：本文提出多任务基准CoV-Eval，全面评估LLM代码安全性，并通过改进模型VC-Judge提升对LLM生成代码漏洞的检测与修复效率。📝 摘要翻译：代码安全和可用性对于各种由大型语言模型（LLM）驱动的编码助手应用都是必不可少的。当前的代码安全基准主要关注单一评估任务和范式，例如代码补全和生成，缺乏对安全代码生成、漏洞修复和区分等维度的全面评估。在这篇论文中，我们首先提出了CoV-Eval，这是一个多任务基准，涵盖了代码补全、漏洞修复、漏洞检测和分类等任务，用于全面评估LLM的代码安全性。此外，我们还开发了VC-Judge，这是一个与人类专家紧密对齐的改进判断模型，能够更高效、更可靠地审查LLM生成的程序中的漏洞。我们对20个专有和开源LLM进行了全面评估。总体而言，尽管大多数LLM能够很好地识别漏洞代码，但它们仍然倾向于生成不安全的代码，并且在识别特定漏洞类型和执行修复方面存在困难。大量的实验和定性分析揭示了关键挑战和优化方向，为LLM代码安全领域的未来研究提供了洞见。