潜影：面向大规模语言与视觉模型的隐性改进讨论：https:/-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

潜影：面向大规模语言与视觉模型的隐性改进

讨论：https://huggingface.co/papers/2409.14713

视觉指令调优的成功加速了大规模语言与视觉模型（LLVMs）的发展。遵循指令调优的大规模语言模型（LLMs）的扩展规律，LLVMs 进一步增加了它们的规模，达到了26B、34B甚至80B参数。尽管模型规模的增大带来了显著的性能提升，但同时也需要大量的硬件资源来进行训练和推理。因此，自然存在对高效的LLVMs的强烈需求，这类模型在较小规模下实现了大模型的性能。为满足这一需求，我们提出了一种新的高效LLVM家族，名为Phantom，模型规模分别为0.5B、1.8B、3.8B和7B参数，显著提升了有限结构内的学习能力。通过在多头自注意力（MHSA）期间暂时增加隐性隐藏维度，使LLVMs能够在隐性层面上预备更多的视觉语言知识理解，而无需实质性地增加物理模型规模。为了最大化其优势，我们引入了Phantom优化（PO），结合自回归监督微调（SFT）和类似直接偏好优化（DPO）的概念，有效地遵循正确答案，同时消除错误和模棱两可的答案。Phantom在众多较大的开源和闭源LLVMs中表现出色，使其成为高效LLVMs领域的领先解决方案。

CSDN App 扫码分享

分享

1

18

复制链接
举报

下一条：

良好的任务分解可以将你的LLM管道的准确性提高1000倍。