你对人工智能持正面态度还是负面态度？-CSDN blink-领先的开发者技术社区

QoQ和QServe：模型量化转换大型语言模型部署的新前沿来自MIT、NVIDIA、UMass Amherst和MIT-IBM Watson AI Lab的研究人员介绍了一种名为Quattuor-Octo-Quattuor (QoQ)的算法，这是一种改进量化的新方法。这种创新方法采用了逐步的群组量化，能够减少标准量化方法通常带来的精度损失。通过将权重量化到中间精度，并将它们细化到目标精度，QoQ算法确保所有计算都适应了当前世代GPU的能力。QoQ算法使用了两阶段量化过程。最初，权重被量化到使用每通道FP16比例的8位；这些中间产物进一步量化到4位。这种方法使得通用矩阵乘法（GEMM）操作可以在INT8张量核心上进行，从而提高了计算吞吐量并降低了延迟。该算法还结合了SmoothAttention技术，该技术调整激活键的量化以进一步优化性能。快速阅读：

https://www.marktechpost.com/2024/05/12/qoq-and-qserve-a-new-frontier-in-model-quantization-transforming-large-language-model-deployment/

https://arxiv.org/abs/2405.04532Github

https://github.com/mit-han-lab/qserve?tab=readme-ov-file