LLM评估十分混乱。标准化评估框架有所帮助,但仍有很长的路要走。我认为我们应该将评估作为一项由不同时也是开发者的公正第三方进行的专业活动来推广。当然,开发者会评估自己的模型和代理,但第三方评估应该被认为更具可信度。例如,我认为HELM的评估结果在模型比较中应该更加突出。(我与HELM没有任何关联。)记者在报道AI发布时,应尽量优先采用第三方评估,而不是开发者的主张。或者,他们应明确指出尚无第三方评估可用。在大多数工程领域,测试与评估与构建分离是常态。现在是时候让AI成熟起来了。