英特尔展示了在CPU上优化大语言模型推理性能的方法大语言模型-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

英特尔展示了在CPU上优化大语言模型推理性能的方法

大语言模型（LLMs）在各种任务中表现出色，展现了巨大的潜力。然而，在低资源环境中高性能部署LLMs在业界引起了广泛关注。当GPU硬件资源有限时，我们可以探索在CPU上的替代选项。为了减轻财务负担并缓解硬件资源限制，优化推理性能是必要的。在本文中，我们介绍了一种易于部署的推理性能优化解决方案，旨在加速CPU上的LLMs。在这一解决方案中，我们实施了一种有效的方法来减少KV缓存大小，同时确保精度。我们提出了一种分布式推理优化方法，并基于oneAPI Collective Communications Library实现。此外，我们还提出了针对CPU上的LLMs的优化方法，并针对最常用的模型进行了定制优化。

CSDN App 扫码分享

分享

2

32

复制链接
举报

下一条：

每日论文：https://huggingface.co/papers