我们今天最喜欢的 Hacker News 帖子——“Llama 3 8B 几乎和 Wizard 2 8x22B 一样好(140B 参数)”令人惊讶的是,小模型如果经过长时间训练也能表现得非常好。如果这是真的,那么你的小显存 GPU 现在能走得更远。https://news.ycombinator.com/item?id=40084699