热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyak
_akhaliq
2 年前
truetechsavvyak

论文页面: https://huggingface.co/papers/2407.07304

CSDN App 扫码分享
分享
评论
10
  • 复制链接
  • 举报
下一条:
英特尔展示了在CPU上优化大语言模型推理性能的方法大语言模型(LLMs)在各种任务中表现出色,展现了巨大的潜力。然而,在低资源环境中高性能部署LLMs在业界引起了广泛关注。当GPU硬件资源有限时,我们可以探索在CPU上的替代选项。为了减轻财务负担并缓解硬件资源限制,优化推理性能是必要的。在本文中,我们介绍了一种易于部署的推理性能优化解决方案,旨在加速CPU上的LLMs。在这一解决方案中,我们实施了一种有效的方法来减少KV缓存大小,同时确保精度。我们提出了一种分布式推理优化方法,并基于oneAPI Collective Communications Library实现。此外,我们还提出了针对CPU上的LLMs的优化方法,并针对最常用的模型进行了定制优化。
立即登录