热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41172704
thinkfuture
1 年前
trueweixin_41172704

你对人工智能持正面态度还是负面态度?

CSDN App 扫码分享
分享
3
28
  • 复制链接
  • 举报
下一条:
QoQ和QServe:模型量化转换大型语言模型部署的新前沿来自MIT、NVIDIA、UMass Amherst和MIT-IBM Watson AI Lab的研究人员介绍了一种名为Quattuor-Octo-Quattuor (QoQ)的算法,这是一种改进量化的新方法。这种创新方法采用了逐步的群组量化,能够减少标准量化方法通常带来的精度损失。通过将权重量化到中间精度,并将它们细化到目标精度,QoQ算法确保所有计算都适应了当前世代GPU的能力。QoQ算法使用了两阶段量化过程。最初,权重被量化到使用每通道FP16比例的8位;这些中间产物进一步量化到4位。这种方法使得通用矩阵乘法(GEMM)操作可以在INT8张量核心上进行,从而提高了计算吞吐量并降低了延迟。该算法还结合了SmoothAttention技术,该技术调整激活键的量化以进一步优化性能。快速阅读:https://www.marktechpost.com/2024/05/12/qoq-and-qserve-a-new-frontier-in-model-quantization-transforming-large-language-model-deployment/论文:https://arxiv.org/abs/2405.04532Github:https://github.com/mit-han-lab/qserve?tab=readme-ov-file
立即登录