制作了一个用于Llama-3 8B的Colab!支持15万亿个token!因此现在@走丢了猫也支持它了!使用免费的T4 GPU。正在进行基准测试,但速度大约快了2倍,内存使用量比HF+FA2少了80%!支持的上下文长度是HF+FA2的4倍。而且推理速度本身就快了2倍。https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing