Phi 3(3.8B)版本发布了!论文中说这只是一个Llama架构,但在我将其添加到@走丢了猫时我发现了一些特点:1. 滑动窗口2047?Mistral v1 是4096。那么Phi mini有滑动窗口算法吗?(还有奇数是什么意思?)最大RoPE位置是4096?2. 升级过的RoPE?像Gemma一样?3. 为128K上下文长度动态RoPE4. 融合了MLP和QKV - 需要分离5. MMLU评估在Phi团队和Llama-3团队之间非常不同 - 为什么?