热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
6
71
- 复制链接
- 举报
下一条:
这篇来自苹果的AI论文介绍了支持苹果智能功能的基础语言模型:AFM-on-Device和AFM-Server苹果的研究人员推出了两种主要的语言模型:一种是优化用于设备上的30亿参数模型,另一种是设计用于苹果私有云计算的大型服务器模型。这些模型旨在平衡效率、准确性和负责任的AI原则,重点在于提升用户体验而不损害隐私和伦理标准。引入这些模型标志着朝着更高效和以用户为中心的AI解决方案迈出了一步。设备上的模型采用了具有RMSNorm的预归一化、八个键值头的分组查询注意力和SwiGLU激活以提高效率。RoPE位置嵌入支持长上下文处理。训练使用了多样化的数据集组合,包括来自出版商的许可数据、开源数据集和公开可用的网络数据。服务器模型在6.3万亿个标记上进行了预训练,而设备上的模型使用了精简版本。服务器模型在序列长度为8192的混合数据上进行了持续预训练,其中数学和代码数据得到了加权。上下文延长阶段使用了长度为32768标记的序列,包含了合成的长上下文问答数据。训练后进行了监督微调(SFT)和人类反馈的强化学习(RLHF),以增强指令跟随和对话能力。阅读我们对这篇论文的全面看法:https://www.marktechpost.com/2024/07/31/this-ai-paper-from-apple-introduces-the-foundation-language-models-that-power-apple-intelligence-features-afm-on-device-and-afm-server/论文:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf@Hxluuu