AI助手代码安全大揭秘:LLM漏洞检测与修复挑战
📚 论文标题:Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective
🔗 Arxiv ID:2505.10494v1
🔑 关键词:code security, usability, large language models (LLMs), benchmark, vulnerability repair
📖 太长不看版:本文提出多任务基准CoV-Eval,全面评估LLM代码安全性,并通过改进模型VC-Judge提升对LLM生成代码漏洞的检测与修复效率。
📝 摘要翻译:代码安全和可用性对于各种由大型语言模型(LLM)驱动的编码助手应用都是必不可少的。当前的代码安全基准主要关注单一评估任务和范式,例如代码补全和生成,缺乏对安全代码生成、漏洞修复和区分等维度的全面评估。在这篇论文中,我们首先提出了CoV-Eval,这是一个多任务基准,涵盖了代码补全、漏洞修复、漏洞检测和分类等任务,用于全面评估LLM的代码安全性。此外,我们还开发了VC-Judge,这是一个与人类专家紧密对齐的改进判断模型,能够更高效、更可靠地审查LLM生成的程序中的漏洞。我们对20个专有和开源LLM进行了全面评估。总体而言,尽管大多数LLM能够很好地识别漏洞代码,但它们仍然倾向于生成不安全的代码,并且在识别特定漏洞类型和执行修复方面存在困难。大量的实验和定性分析揭示了关键挑战和优化方向,为LLM代码安全领域的未来研究提供了洞见。