Qwen2的想法-尝试搞清楚这是否是美国开始关注中国在开放大-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevnathanlambert

Qwen2的想法 - 尝试搞清楚这是否是美国开始关注中国在开放大语言模型（LLM）贡献的时刻。

高层次：
* 评估结果极其令人印象深刻。不认为他们故意在测试集上训练，但在评估方面比美国的实验室更下功夫。
* 由于截止日期是2021年，很多感觉测试可能会有点奇怪。我喜欢看看它对我、我的博客、RLHF等的了解程度并进行讨论。那时几乎没有媒体。
* Llama微调和这个模型之间的差距将很明显。RLHF对于提取这些基准分数非常重要，但我们在开放基础设施方面还没有达到那个水平。
* 长上下文长度确实正在成为标准。这些模型的上下文长度都是32k以上。未来几年将会非常疯狂。

问题：
* 尝试找出训练所用的令牌数量。
* 使用了“在线DPO”，提供的详细信息越多越好。可以链接到我上面关于RLHF所说的内容。
* 没有迹象表明今年模型发布会放缓。今年是科学的丰收年。
* 为什么72B模型需要新的许可证。“Qianwen许可证”很多公司都在这样做。他们是否在效仿 @玄睛的策略？具体是什么？

祝贺团队！

CSDN App 扫码分享

分享

11

133

复制链接
举报

下一条：

LlamaParse和知识图谱，两者结合绝妙无比！在这个笔记本中，@JerryLiulu ⭐️ 使用LlamaParse的一流解析作为构建知识图谱的原材料⭐️ 在图谱上构建一个RAG（检索增强生成）管道，通过向量搜索检索初始节点，然后通过图遍历检索相关节点⭐️ 在RAG管道上构建一个代理，以回答复杂的查询点击这里查看: https://github.com/run-llama/llama_parse/blob/main/examples/knowledge_graphs/kg_agent.ipynb