热门

最新

红包

立Flag

投票

同城

我的

发布
devaiatmeta
云端~
2 年前
truedevaiatmeta

这些轻量级的Llama模型预训练使用了多达9万亿的tokens。然而,对于Llama 1B和3B,其中的关键之一是使用剪枝和蒸馏技术来构建更小且性能更优的模型,这些模型从强大的教师模型中获取信息。

剪枝使我们能够在尽可能恢复知识和性能的情况下,缩小现有Llama模型的尺寸。

知识蒸馏使用一个更大的网络来将知识传递给一个较小的网络。

CSDN App 扫码分享
分享
4
53
  • 复制链接
  • 举报
下一条:
尽管Llama 1B和3B体积轻便,但它们具备广泛的功能,专为在移动设备和轻量级边缘部署上运行而打造。它们赋能开发者构建个性化和私密的设备端智能应用。
立即登录