链接到公告：https://qwenlm.github.io-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevnathanlambert

链接到公告：https://qwenlm.github.io/blog/qwen2/

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

Qwen2的想法 - 尝试搞清楚这是否是美国开始关注中国在开放大语言模型（LLM）贡献的时刻。高层次：* 评估结果极其令人印象深刻。不认为他们故意在测试集上训练，但在评估方面比美国的实验室更下功夫。* 由于截止日期是2021年，很多感觉测试可能会有点奇怪。我喜欢看看它对我、我的博客、RLHF等的了解程度并进行讨论。那时几乎没有媒体。* Llama微调和这个模型之间的差距将很明显。RLHF对于提取这些基准分数非常重要，但我们在开放基础设施方面还没有达到那个水平。* 长上下文长度确实正在成为标准。这些模型的上下文长度都是32k以上。未来几年将会非常疯狂。问题：* 尝试找出训练所用的令牌数量。* 使用了“在线DPO”，提供的详细信息越多越好。可以链接到我上面关于RLHF所说的内容。* 没有迹象表明今年模型发布会放缓。今年是科学的丰收年。* 为什么72B模型需要新的许可证。“Qianwen许可证”很多公司都在这样做。他们是否在效仿@玄睛的策略？具体是什么？祝贺团队！