借用A100并且直接使用Llama3-70B进行推理，比起使-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_41975548

借用A100并且直接使用Llama3-70B进行推理，比起使用API，成本效益大约低25倍。首先，使用vLLM等工具批量推理，预计吞吐量可以提高大约10倍，而不是普通地使用Llama.cpp。我认为可能有类似TensorRT-LLM的模型编译工具，使用这些工具可以使推理速度提高大约4倍。如果结合起来使用，是否可以实现大约40倍的速度提升，从而超越API的成本效益？当然，问题来了，谁会去结合vLLM和TensorRT-LLM呢？还有，我还不太清楚模型文件的重组。→RT

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

GPT-5或许会比GPT-4更聪明，但这并不意味着它就能成为一个可信赖的伙伴。感觉根本就不是这个问题。