热门
最新
红包
立Flag
投票
同城
我的
发布
OPPO 发布了一种移动推理引擎Transformer-Lite,专为在手机上高效部署大型语言模型设计。#ai#
通过符号表达式、算子优化、FP4量化和KV缓存技术克服移动设备性能限制,显著提升智能助手、文本摘要等应用的推理速度。
详细信息:
Transformer-Lite是由OPPO AI Center开发的一种移动推理引擎,专门用于在移动设备的GPU上高效部署大型语言模型(LLM)。
该引擎通过一系列优化技术,实现了与Qualcomm和MTK处理器的兼容性,从而能够在智能手机上提供智能助手、文本摘要、翻译等功能,改善用户体验。
Transformer-Lite通过提出四种优化技术来解决挑战:
(a) 基于符号表达式的方法支持动态形状模型推理;
(b) 算子优化和执行优先级设置以提高推理速度和减少手机延迟;
(c) 引入FP4量化方法M0E4减少量化开销;
(d) 子张量技术消除LLM推理后KV缓存复制的需要。
论文地址:https://arxiv.org/abs/2403.20041
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
上海人工智能实验室发布了一套多模态 LLM 视觉评价体系MMStar。#ai##llm# 他们还利用这套评价体系对现在的多模态 LLM 进行了评价产出了对应的排行,GPT-4V 还是毫无疑问的第一。但即使是 GPT-4 在这个体系中也没有及格,多模态还有很长的路要走。详细介绍:MMStar包含1500个经过人工精心挑选的高质量多模态评估样本,旨在全面评估视觉语言模型在6个核心能力和18个具体维度上的多模态能力。在MMStar上,GPT-4V的高分辨率版本表现最佳,准确率达到57.1%。但在细粒度感知、逻辑推理、科学技术和数学等能力上,所有模型的表现都未达到令人满意的水平。值得一提的是,小模型TinyLLaVA-3B的表现出乎意料地好,超过了一些7B和13B的模型,凸显了小规模视觉语言模型的潜力。还提出了两个新的评估指标:多模态收益(MG)和多模态泄漏(ML)。MG衡量视觉语言模型从多模态训练中获得的实际性能提升,而ML衡量评估样本在多模态训练过程中的泄漏程度。项目地址:https://mmstar-benchmark.github.io/