热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_33735281
Call 我crazy
2 年前
trueweixin_33735281

有没有关于从一个8B参数基模型中获得良好微调效果的配方(特别是数据集)?看起来在HH-RLHF/UltraFeedback等上的学术规模PPO或DPO运行仅在某些狭窄的能力上有所提升,而不像Llama微调那样带来大的变化 🧵

CSDN App 扫码分享
分享
9
100
  • 复制链接
  • 举报
下一条:
.@开轩面场圃 在2024年纽约市的活动上谈到了在人工智能中保持人性。https://trib.al/3Cz8SJJ
立即登录