热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
点赞
- 复制链接
- 举报
下一条:
OPPO 发布了一种移动推理引擎Transformer-Lite,专为在手机上高效部署大型语言模型设计。#ai# 通过符号表达式、算子优化、FP4量化和KV缓存技术克服移动设备性能限制,显著提升智能助手、文本摘要等应用的推理速度。详细信息:Transformer-Lite是由OPPO AI Center开发的一种移动推理引擎,专门用于在移动设备的GPU上高效部署大型语言模型(LLM)。该引擎通过一系列优化技术,实现了与Qualcomm和MTK处理器的兼容性,从而能够在智能手机上提供智能助手、文本摘要、翻译等功能,改善用户体验。Transformer-Lite通过提出四种优化技术来解决挑战:(a) 基于符号表达式的方法支持动态形状模型推理;(b) 算子优化和执行优先级设置以提高推理速度和减少手机延迟;(c) 引入FP4量化方法M0E4减少量化开销;(d) 子张量技术消除LLM推理后KV缓存复制的需要。论文地址:https://arxiv.org/abs/2403.20041