热门
最新
红包
立Flag
投票
同城
我的
发布
LLMs + Persona-Plug = 个性化的大型语言模型
讨论: https://huggingface.co/papers/2409.11901
个性化在众多语言任务和应用中起着关键作用,因为即使用户有相同的需求,他们可能会根据个人兴趣偏好选择不同的输出。这导致了各种个性化方法的发展,旨在使大型语言模型(LLMs)生成与用户偏好一致的定制输出。其中一些方法涉及为每个用户微调一个独特的个性化LLM,但这对于广泛应用来说过于昂贵。替代方法则通过检索用户的相关历史文本作为示例,以即插即用的方式引入个性化信息。然而,这种基于检索的策略可能会破坏用户历史的连续性,无法捕捉用户的整体风格和模式,从而导致次优的性能。为了解决这些挑战,我们提出了一种新颖的个性化LLM模型。该模型通过一个轻量级的用户嵌入模块,建构了每个用户的特定嵌入,建模了她所有的历史上下文。通过将此嵌入附加到任务输入中,LLMs可以更好地理解和捕捉用户的习惯和偏好,从而在不调节自身参数的情况下生成更个性化的输出。大量在语言模型个性化(LaMP)基准上的任务实验表明,所提出的模型显著优于现有的个性化LLM方法。
CSDN App 扫码分享
3
39
- 复制链接
- 举报
下一条:
Qwen2-VL提升视觉语言模型对任何分辨率世界的感知能力讨论:https://huggingface.co/papers/2409.12191我们介绍了Qwen2-VL系列,这是对先前Qwen-VL模型的高级升级,重新定义了视觉处理中的传统预定分辨率方法。Qwen2-VL引入了朴素动态分辨率机制,使模型能够动态处理不同分辨率的图像为不同数量的视觉标记。这种方法使模型能够生成更高效、更准确的视觉表示,更接近于人类的感知过程。该模型还集成了多模态旋转位置嵌入(M-RoPE),促进了文本、图像和视频之间位置信息的有效融合。我们采用统一的范式来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉语言模型(LVLM)的扩展规律。通过扩大模型规模(包括2B、8B和72B参数版本)和训练数据量,Qwen2-VL系列实现了高度竞争的性能。值得注意的是,Qwen2-VL-72B模型在各种多模态基准测试中取得了与GPT-4o和Claude3.5-Sonnet等领先模型相当的结果,表现优于其他通用模型。