借用A100并且直接使用Llama3-70B进行推理,比起使用API,成本效益大约低25倍。首先,使用vLLM等工具批量推理,预计吞吐量可以提高大约10倍,而不是普通地使用Llama.cpp。我认为可能有类似TensorRT-LLM的模型编译工具,使用这些工具可以使推理速度提高大约4倍。如果结合起来使用,是否可以实现大约40倍的速度提升,从而超越API的成本效益?当然,问题来了,谁会去结合vLLM和TensorRT-LLM呢?还有,我还不太清楚模型文件的重组。→RT