英特尔展示了在CPU上优化大语言模型推理性能的方法
大语言模型(LLMs)在各种任务中表现出色,展现了巨大的潜力。然而,在低资源环境中高性能部署LLMs在业界引起了广泛关注。当GPU硬件资源有限时,我们可以探索在CPU上的替代选项。为了减轻财务负担并缓解硬件资源限制,优化推理性能是必要的。在本文中,我们介绍了一种易于部署的推理性能优化解决方案,旨在加速CPU上的LLMs。在这一解决方案中,我们实施了一种有效的方法来减少KV缓存大小,同时确保精度。我们提出了一种分布式推理优化方法,并基于oneAPI Collective Communications Library实现。此外,我们还提出了针对CPU上的LLMs的优化方法,并针对最常用的模型进行了定制优化。