量化后的Gemma 2B在我的iPhone 15 pro上通过MLX Swift运行得非常快。代码和文档:https://github.com/ml-explore/mlx-swift-examples/blob/main/Applications/LLMEval/README.md在@msysorg的基准测试中,其性能可与GPT 3.5 turbo和Mixtral 8x7B相媲美,但可以高效地在iPhone上运行。真是太疯狂了。