热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41975548
umiyuki_ai
1 年前
trueweixin_41975548

如果在本地LLM上运行类似AutoGPT这样的东西,并且让AI自己决定想做什么,任其自由地进行研究,会发生什么呢?

CSDN App 扫码分享
分享
评论
10
  • 复制链接
  • 举报
下一条:
LLM在VRAM上放不下会变慢,是因为每次推断每个令牌都需要对所有层进行计算,但如果以批量推断著称的vLLM将100个左右的提示一起批量投掷进行推断,即便延迟很高,吞吐量也会大幅提升,这样一来怎么样呢?我这样想着试了一下Llama3-70B的4bitAWQ,结果等得要死,最后由于内存不足报错,完全不行。
立即登录