热门
最新
红包
立Flag
投票
同城
我的
发布
潜影:面向大规模语言与视觉模型的隐性改进
讨论:https://huggingface.co/papers/2409.14713
视觉指令调优的成功加速了大规模语言与视觉模型(LLVMs)的发展。遵循指令调优的大规模语言模型(LLMs)的扩展规律,LLVMs 进一步增加了它们的规模,达到了26B、34B甚至80B参数。尽管模型规模的增大带来了显著的性能提升,但同时也需要大量的硬件资源来进行训练和推理。因此,自然存在对高效的LLVMs的强烈需求,这类模型在较小规模下实现了大模型的性能。为满足这一需求,我们提出了一种新的高效LLVM家族,名为Phantom,模型规模分别为0.5B、1.8B、3.8B和7B参数,显著提升了有限结构内的学习能力。通过在多头自注意力(MHSA)期间暂时增加隐性隐藏维度,使LLVMs能够在隐性层面上预备更多的视觉语言知识理解,而无需实质性地增加物理模型规模。为了最大化其优势,我们引入了Phantom优化(PO),结合自回归监督微调(SFT)和类似直接偏好优化(DPO)的概念,有效地遵循正确答案,同时消除错误和模棱两可的答案。Phantom在众多较大的开源和闭源LLVMs中表现出色,使其成为高效LLVMs领域的领先解决方案。
CSDN App 扫码分享
1
18
- 复制链接
- 举报