【窃取生产语言模型的一部分
引人入胜的论文!它展示了第一个模型窃取攻击,可以从像ChatGPT或PaLM-2这样的生产语言模型中提取信息。
论文表明,通过典型的API访问,可以恢复基于变压器的模型的嵌入投影层。
例如,使用不到20美元的费用,就从OpenAI的ada和babbage模型中提取了整个投影矩阵。
论文中的引用:“我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计通过查询花费不到2000美元就能恢复整个投影矩阵。”
由于这些LLM提供商已经提供了logit-bias和logprobs,攻击才成为可能。
这让我想起了另一篇论文,它利用模型的logprobs开发了超高效的对抗性提示。在LLM的世界里,安全仍然是一个紧迫的话题。如果你正在构建LLM产品,熟悉这些话题是很好的。】