「Apple MLX LLaMA2性能实测」llama2-7b-chat模型,对比llama.cpp的速度注意,虽然llama.cpp要快一些,但是MLX使用的是非量化模型,而llama.cpp使用的是Q5量化模型。所以MLX实际性能还是非常棒的(@nash_su) https:// github.com/ml-explore/mlx