当我读了那个线程的评论时,有一种说法是,并不是因为量子化造成了质量下降,而是Llama.cpp的分词器本身就有某些问题,这导致了gguf出现了问题。https://github.com/ggerganov/llama.cpp/issues/6914