有没有关于从一个8B参数基模型中获得良好微调效果的配方（特别-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_33735281

有没有关于从一个8B参数基模型中获得良好微调效果的配方（特别是数据集）？看起来在HH-RLHF/UltraFeedback等上的学术规模PPO或DPO运行仅在某些狭窄的能力上有所提升，而不像Llama微调那样带来大的变化 🧵

CSDN App 扫码分享

分享

9

100

复制链接
举报

下一条：

.@开轩面场圃在2024年纽约市的活动上谈到了在人工智能中保持人性。https://trib.al/3Cz8SJJ