我之前也在博客中验证过，但是Reddit上有人好奇模型的量子-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_41975548

我之前也在博客中验证过，但是Reddit上有人好奇模型的量子化在多大程度上会影响性能，因此他们创建了一个MPA基准测试来进行验证。那么这个基准测试是什么呢？就是进行五位数的加法运算。结果出人意料。在对Llama3-8B模型进行测试时，F16（无量子化）的得分是94分，而当切换到Q8_0（8位量子化）时，得分竟然下降到了74分！！之前大家都认为8位量子化不会对性能造成任何负面影响，但现在看来，即使是8位量子化，在处理细腻的任务时也可能会明显降低性能。https://www.reddit.com/r/LocalLLaMA/comments/1cdxjax/i_created_a_new_benchmark_to_specifically_test/

CSDN App 扫码分享

分享

1

19

复制链接
举报

下一条：

当我读了那个线程的评论时，有一种说法是，并不是因为量子化造成了质量下降，而是Llama.cpp的分词器本身就有某些问题，这导致了gguf出现了问题。https://github.com/ggerganov/llama.cpp/issues/6914