【窃取生产语言模型的一部分引人入胜的论文！它展示了第一个模型-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

truedevelvis

【窃取生产语言模型的一部分

引人入胜的论文！它展示了第一个模型窃取攻击，可以从像ChatGPT或PaLM-2这样的生产语言模型中提取信息。

论文表明，通过典型的API访问，可以恢复基于变压器的模型的嵌入投影层。

例如，使用不到20美元的费用，就从OpenAI的ada和babbage模型中提取了整个投影矩阵。

论文中的引用：“我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小，并估计通过查询花费不到2000美元就能恢复整个投影矩阵。”

由于这些LLM提供商已经提供了logit-bias和logprobs，攻击才成为可能。

这让我想起了另一篇论文，它利用模型的logprobs开发了超高效的对抗性提示。在LLM的世界里，安全仍然是一个紧迫的话题。如果你正在构建LLM产品，熟悉这些话题是很好的。】

CSDN App 扫码分享

分享

4

300

复制链接
举报

下一条：

我注意到的其他事情：> 运行变体会搞砸事情> 最实用的--cw范围是0-50> MJ生成的参考图像效果要好得多总的来说，它在这里做得相当不错Midjourney课程将于3月19日开始（链接在简介中）