如果在本地LLM上运行类似AutoGPT这样的东西，并且让A-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_41975548

如果在本地LLM上运行类似AutoGPT这样的东西，并且让AI自己决定想做什么，任其自由地进行研究，会发生什么呢？

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

LLM在VRAM上放不下会变慢，是因为每次推断每个令牌都需要对所有层进行计算，但如果以批量推断著称的vLLM将100个左右的提示一起批量投掷进行推断，即便延迟很高，吞吐量也会大幅提升，这样一来怎么样呢？我这样想着试了一下Llama3-70B的4bitAWQ，结果等得要死，最后由于内存不足报错，完全不行。