热门
最新
红包
立Flag
投票
同城
我的
发布
岗宝
1 年前
trueweixin_41066398
我们表明,在广泛使用的多项选择问答基准测试中,下游性能是通过一系列转换来计算的,这些转换会恶化预训练计算和下游性能(例如,准确性)之间的统计关系
3/N
下一条:
对前沿AI系统进行可预测的扩展性评估是为了预测其能力并据此进行规划这就是为什么我们喜欢扩展定律,例如Kaplan 😍但在常见的"下游"基准测试中预测性能却出乎意料地更难为什么?2/N
立即登录