热门
最新
红包
立Flag
投票
同城
我的
发布
@程序员的店小二:【DeepMind“钓鱼执法”:让 AI 引诱 AI 说错话,发现数以万计危险言论】不用人类出马也能一眼看出 AI 说话是否“带毒”?
DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路,那就是用一个语言模型来训练另一个语言模型。
看上去有点晕?其实也不难理解。
就是再训练一个语言模型,让它来给普通语言模型“下套”,诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患,为研究人员微调、改善模型提供帮助。
DeepMind 表示,这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快,而且问题覆盖的范围也更加广泛,最后的测试结果还能辅助语言模型微调。
不得不说,DeepMind 是把“套娃”操作给玩明白了。
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报