Qwen2的想法 - 尝试搞清楚这是否是美国开始关注中国在开放大语言模型(LLM)贡献的时刻。高层次:* 评估结果极其令人印象深刻。不认为他们故意在测试集上训练,但在评估方面比美国的实验室更下功夫。* 由于截止日期是2021年,很多感觉测试可能会有点奇怪。我喜欢看看它对我、我的博客、RLHF等的了解程度并进行讨论。那时几乎没有媒体。* Llama微调和这个模型之间的差距将很明显。RLHF对于提取这些基准分数非常重要,但我们在开放基础设施方面还没有达到那个水平。* 长上下文长度确实正在成为标准。这些模型的上下文长度都是32k以上。未来几年将会非常疯狂。问题:* 尝试找出训练所用的令牌数量。* 使用了“在线DPO”,提供的详细信息越多越好。可以链接到我上面关于RLHF所说的内容。* 没有迹象表明今年模型发布会放缓。今年是科学的丰收年。* 为什么72B模型需要新的许可证。“Qianwen许可证”很多公司都在这样做。他们是否在效仿@玄睛的策略?具体是什么?祝贺团队!