热门

最新

红包

立Flag

投票

同城

我的

发布
develvis
九零00000
1 年前
truedevelvis

【窃取生产语言模型的一部分

引人入胜的论文!它展示了第一个模型窃取攻击,可以从像ChatGPT或PaLM-2这样的生产语言模型中提取信息。

论文表明,通过典型的API访问,可以恢复基于变压器的模型的嵌入投影层。

例如,使用不到20美元的费用,就从OpenAI的ada和babbage模型中提取了整个投影矩阵。

论文中的引用:“我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计通过查询花费不到2000美元就能恢复整个投影矩阵。”

由于这些LLM提供商已经提供了logit-bias和logprobs,攻击才成为可能。

这让我想起了另一篇论文,它利用模型的logprobs开发了超高效的对抗性提示。在LLM的世界里,安全仍然是一个紧迫的话题。如果你正在构建LLM产品,熟悉这些话题是很好的。】

CSDN App 扫码分享
分享
4
300
  • 复制链接
  • 举报
下一条:
我注意到的其他事情:> 运行变体会搞砸事情> 最实用的--cw范围是0-50> MJ生成的参考图像效果要好得多总的来说,它在这里做得相当不错Midjourney课程将于3月19日开始(链接在简介中)
立即登录