热门
最新
红包
立Flag
投票
同城
我的
发布
Llama-3.1 在数学和推理方面取得了非常出色的结果,这是我最关心的。论文非常开放,分享了很多细节。
这是我的学习笔记:
1. 针对整个语料库进行专门的回忆/分类器,以找到高质量的数学/代码数据。这类似于 Deepseek-Coder-v2/Deepseek-Math。
2. 特定领域的 HTML 提取。我们在 MAmmoTH2 中也做了这个。
3. 数学和推理标记的比例非常高。这现在似乎是标准?我的理解是,通过增加数学/推理标记的比例,你永远不会失去任何东西。
4. 数学技能的细粒度校准和多样化的人类编写的数学提示。很棒!也许我们可以使用 Persona Hub 来模拟它?https://arxiv.org/abs/2406.20094
5 和 6. 使用 LLama3 进行基于过程的自我验证奖励。嗯,我从未让这个工作😅。
7. 交替使用 CoT 和 PoT 来解决具有挑战性的问题。
CSDN App 扫码分享
1
23
- 复制链接
- 举报