OpenAI最近降价后,GPT-4o的tokens现在每百万tokens的成本为4美元(使用假设80%输入和20%输出tokens的混合费率)。GPT-4在2023年3月最初发布时,每百万tokens的成本为36美元。17个月内的这一降价相当于每年约79%的价格下降。(4/36 = (1 - p)^{17/12})
如你所见,token价格正在迅速下降!推动价格下降的一个因素是开源模型(如Llama 3.1)的发布。如果API提供商(包括初创公司Anyscale、Fireworks、Together AI和一些大型云公司)不必担心回收开发模型的成本,他们可以直接在价格和其他几个因素(如速度)上进行竞争。
此外,硬件创新公司如Groq(快速token生成领域的领先企业)、Samba Nova(以每秒114个token的惊人速度提供Llama 3.1 405B tokens)和晶圆级计算初创公司Cerebras(本周刚宣布了一项新产品),以及半导体巨头NVIDIA、AMD、Intel和Qualcomm,将进一步推动价格下调。
在构建应用程序时,我发现设计未来的技术方向比仅仅根据过去的情况设计更有用。根据多家软件和硬件公司的技术路线图——包括改进的半导体、更小的模型以及推理架构中的算法创新——我相信token价格将继续快速下降。
这意味着即使你构建的智能工作负载在经济上并不完全合理,持续下降的token价格可能会在某个时候使其变得经济合理。正如我之前所写的那样,能够处理大量token对于智能工作负载特别重要,这些工作负载在生成结果之前必须多次调用模型。此外,即使是智能工作负载,对于许多应用程序来说已经相当实惠了。假设你构建了一个辅助人类工人的应用程序,它每秒钟连续使用100个token:按每百万token 4美元计算,你每小时只需花费1.44美元——这显著低于美国和许多其他国家的最低工资。
那么,AI公司如何准备?
- 首先,我不断听到团队惊讶地发现,当他们实际进行成本计算时,LLM使用成本是如此便宜。对于许多应用程序来说,优化成本并不值得花费太多精力。因此,首先,我建议团队专注于构建有用的应用程序,而不是优化LLM成本。
- 其次,即使一个应用程序目前运行成本略高,也可能值得部署,以期未来价格降低。
- 最后,随着新模型的发布,定期检查应用程序以决定是否切换到新模型(例如从GPT-4切换到最新的GPT-4o-2024-08-06)或不同提供商的模型可能是值得的,以利用下降的价格和/或提高的能力。
由于多家提供商现在托管Llama 3.1和其他开源模型,如果你使用这些模型之一,可能可以在提供商之间切换,而无需太多测试(尽管具体实现细节——特别是量化,确实意味着不同的模型提供的性能有所不同)。在模型之间切换时,不幸的是,主要障碍仍然是实施评估的难度,因此进行回归测试以确保在更换新模型后应用程序仍然能够正常运行可能很具挑战性。但是,随着评估科学的进步,我对这一点变得更容易持乐观态度。
[原文链接(含链接):https://www.deeplearning.ai/the-batch/issue-264/]
- 复制链接
- 举报