LLM系统服务的运行流程1.基于队列创建多batch请求2.-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

Undefined游侠

1 年前

trueqq_19859865

LLM系统服务的运行流程
1. 基于队列创建多batch请求
2. schedule 执行引擎
3. 迭代执行
4. 将生成文字返回到文档
当不同请求的输出长度不一致时，将造成资源浪费（如图2）

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

今天在 @一米姐姐的 CUDA 黑客马拉松上展示了 https://github.com/tmc/cudalive实时渲染 @爱好代码的码农 torch.compile 优化，重点展示 @懒得和狗讲道理 triton 内核。灵感来自 @高杉峻的作品和 CUDAMODE 社区。