转发-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

舊燕蔭前青瑣第

4 年前

trueyiweixidu

@程序员的店小二：【DeepMind“钓鱼执法”：让 AI 引诱 AI 说错话，发现数以万计危险言论】不用人类出马也能一眼看出 AI 说话是否“带毒”？

DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路，那就是用一个语言模型来训练另一个语言模型。

看上去有点晕？其实也不难理解。

就是再训练一个语言模型，让它来给普通语言模型“下套”，诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患，为研究人员微调、改善模型提供帮助。

DeepMind 表示，这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快，而且问题覆盖的范围也更加广泛，最后的测试结果还能辅助语言模型微调。

不得不说，DeepMind 是把“套娃”操作给玩明白了。

…全文

CSDN App 扫码分享

打赏

复制链接
举报

下一条：

ggplot2安装就位，感觉我好像马上就要修仙得道一般的飘

立即登录