有没有关于从一个8B参数基模型中获得良好微调效果的配方(特别是数据集)?看起来在HH-RLHF/UltraFeedback等上的学术规模PPO或DPO运行仅在某些狭窄的能力上有所提升,而不像Llama微调那样带来大的变化 🧵