热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
3
28
- 复制链接
- 举报
下一条:
QoQ和QServe:模型量化转换大型语言模型部署的新前沿来自MIT、NVIDIA、UMass Amherst和MIT-IBM Watson AI Lab的研究人员介绍了一种名为Quattuor-Octo-Quattuor (QoQ)的算法,这是一种改进量化的新方法。这种创新方法采用了逐步的群组量化,能够减少标准量化方法通常带来的精度损失。通过将权重量化到中间精度,并将它们细化到目标精度,QoQ算法确保所有计算都适应了当前世代GPU的能力。QoQ算法使用了两阶段量化过程。最初,权重被量化到使用每通道FP16比例的8位;这些中间产物进一步量化到4位。这种方法使得通用矩阵乘法(GEMM)操作可以在INT8张量核心上进行,从而提高了计算吞吐量并降低了延迟。该算法还结合了SmoothAttention技术,该技术调整激活键的量化以进一步优化性能。快速阅读:https://www.marktechpost.com/2024/05/12/qoq-and-qserve-a-new-frontier-in-model-quantization-transforming-large-language-model-deployment/论文:https://arxiv.org/abs/2405.04532Github:https://github.com/mit-han-lab/qserve?tab=readme-ov-file