推文中的一些细节:
- 支持多语言和工具调用,性能媲美 GPT-4
- 模型能够识别图像和视频,并支持通过语音进行交互,但这些功能仍在开发中,尚未准备好发布。
- 训练数据高达 15.6T tokens,使用了超过 16,000 个 H100 GPU
- 405B 模型能在单个服务器节点上运行
- 405B 模型训练好后,继续用 405B 模型提升了 8B 和 70B 的质量,所以可以预见 Llama 3.1 中 8B 和 70B 会有更好表现
- 大多数的监督微调(SFT)示例都是使用合成数据生成的