热门

最新

红包

立Flag

投票

同城

我的

发布
devhero
op7418
2 年前
truedevhero

OPPO 发布了一种移动推理引擎Transformer-Lite,专为在手机上高效部署大型语言模型设计。

通过符号表达式、算子优化、FP4量化和KV缓存技术克服移动设备性能限制,显著提升智能助手、文本摘要等应用的推理速度。

详细信息:

Transformer-Lite是由OPPO AI Center开发的一种移动推理引擎,专门用于在移动设备的GPU上高效部署大型语言模型(LLM)。

该引擎通过一系列优化技术,实现了与Qualcomm和MTK处理器的兼容性,从而能够在智能手机上提供智能助手、文本摘要、翻译等功能,改善用户体验。

Transformer-Lite通过提出四种优化技术来解决挑战:

(a) 基于符号表达式的方法支持动态形状模型推理;
(b) 算子优化和执行优先级设置以提高推理速度和减少手机延迟;
(c) 引入FP4量化方法M0E4减少量化开销;
(d) 子张量技术消除LLM推理后KV缓存复制的需要。

论文地址:
https://arxiv.org/abs/2403.20041

CSDN App 扫码分享
分享
评论
40
  • 复制链接
  • 举报
下一条:
明明是-场空在梦里浮沉。不敢问当年是假是真
立即登录