热门

最新

红包

立Flag

投票

同城

我的

发布
devtekniume
Teknium1
2 年前
truedevtekniume

附带说明 - Arena 的评分高于 3.5-turbo,但它的 mmlu 只有 50,而 3.5-turbo 是 70。

如果人们仅以 Arena elo 排名作为模型性能的唯一指标,这种差异是令人担忧的。

CSDN App 扫码分享
分享
7
78
  • 复制链接
  • 举报
下一条:
特别是,我在跟踪他的工作过程中得到了很多乐趣和启示,他研究的问题包括“我们可以用图像生成模型、SDFs和廉价的视觉分割对媒体进行哪些全新的操作?”以及一个你可以在浏览器中试用的长长的演示/原型列表。
立即登录