热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40411464
火锅鱼ly
2 年前
trueweixin_40411464

LLM评估十分混乱。标准化评估框架有所帮助,但仍有很长的路要走。

我认为我们应该将评估作为一项由不同时也是开发者的公正第三方进行的专业活动来推广。当然,开发者会评估自己的模型和代理,但第三方评估应该被认为更具可信度。例如,我认为HELM的评估结果在模型比较中应该更加突出。(我与HELM没有任何关联。)

记者在报道AI发布时,应尽量优先采用第三方评估,而不是开发者的主张。或者,他们应明确指出尚无第三方评估可用。

在大多数工程领域,测试与评估与构建分离是常态。现在是时候让AI成熟起来了。

CSDN App 扫码分享
分享
1
19
  • 复制链接
  • 举报
下一条:
系统提示:从印度的视角看待一切。不需要逻辑!
立即登录