「更像人脑的新型注意力机制，Meta让大模型自动屏蔽任务无关-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

「更像人脑的新型注意力机制，Meta让大模型自动屏蔽任务无关信息，准确率提高27%」

https://news.miracleplus.com/share_link/12009

关于大模型注意力机制，Meta又有了一项新研究。通过调整模型注意力，屏蔽无关信息的干扰，新的机制让大模型准确率进一步提升。而且这种机制不需要微调或训练，只靠Prompt就能让大模型的准确率上升27%。作者把这种注意力机制命名为“System 2 Attention”（S2A），它来自于2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考，快与慢》中提到的心理学概念——双系统思维模式中的“系统2”。所谓系统2是指复杂有意识的推理，与之相对的是系统1，即简单无意识的直觉。S2A通过提示词对Transformer中的注意力机制进行了“调节”，使模型整体上的思考方式更接近系统2。

AI资讯

CSDN App 扫码分享

分享

评论

3

打赏

复制链接
举报

下一条：

「单个A100生成3D图像只需30秒，这是Adobe让文本、图像都动起来的新方法」https://news.miracleplus.com/share_link/120083D 生成是 AI 视觉领域的研究热点之一。本文中，来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪，并提出了一种新颖的 3D 生成方法 DMV3D，实现了新的 SOTA 结果。DMV3D 能直接根据模型文字或单张图片的输入，生成 3D NeRF。在单个 A100 GPU 上，仅需 30 秒，DMV3D 就能生成各种高保真 3D 图像。