构建一个生成式AI应用程序的最佳事情之一是,更好的AI直接转化为更好的用户体验和更好的产品。
使CHAI拥有更好AI的一个因素是使用奖励模型。
奖励模型是一种训练来做一件事情的模型:预测用户是否更喜欢一个回复而不是另一个回复。我们之前发布过关于训练奖励模型以及它们如何显著提升用户体验的内容。
从那时起,我们有了几项发现:
- 新鲜度重要:用户偏好在几周内会发生变化
- 训练数据的规模重要
- 奖励模型的大小重要
然后就是在训练模型的成本和模型性能之间做出权衡。随着GPU成本的下降以及我们在节省成本方面变得更好,我们理想情况下会使用我们能够负担得起的最佳模型。