热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyak
_akhaliq
2 年前
truetechsavvyak

英特尔展示了在CPU上优化大语言模型推理性能的方法

大语言模型(LLMs)在各种任务中表现出色,展现了巨大的潜力。然而,在低资源环境中高性能部署LLMs在业界引起了广泛关注。当GPU硬件资源有限时,我们可以探索在CPU上的替代选项。为了减轻财务负担并缓解硬件资源限制,优化推理性能是必要的。在本文中,我们介绍了一种易于部署的推理性能优化解决方案,旨在加速CPU上的LLMs。在这一解决方案中,我们实施了一种有效的方法来减少KV缓存大小,同时确保精度。我们提出了一种分布式推理优化方法,并基于oneAPI Collective Communications Library实现。此外,我们还提出了针对CPU上的LLMs的优化方法,并针对最常用的模型进行了定制优化。

CSDN App 扫码分享
分享
2
32
  • 复制链接
  • 举报
下一条:
每日论文:https://huggingface.co/papers
立即登录