这里有一篇论文的链接,可以了解更多细节。这篇论文非常实用有用。此外,他们提出了一个新的开放托管框架(vLLM替代方案),专门用于在适度的商品硬件上(例如,单个A10 GPU)支持大量LoRA模型。https://arxiv.org/abs/2405.00732