热门
最新
红包
立Flag
投票
同城
我的
发布
Undefined游侠
1 年前
trueqq_19859865
LLM系统服务的运行流程
1. 基于队列创建多batch请求
2. schedule 执行引擎
3. 迭代执行
4. 将生成文字返回到文档
当不同请求的输出长度不一致时,将造成资源浪费(如图2)
下一条:
今天在 @一米姐姐 的 CUDA 黑客马拉松上展示了
https://github.com/tmc/cudalive
实时渲染 @爱好代码的码农 torch.compile 优化,重点展示 @懒得和狗讲道理 triton 内核。灵感来自 @高杉峻 的作品和 CUDAMODE 社区。
立即登录