我们表明，在广泛使用的多项选择问答基准测试中，下游性能是通过-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_41066398

我们表明，在广泛使用的多项选择问答基准测试中，下游性能是通过一系列转换来计算的，这些转换会恶化预训练计算和下游性能（例如，准确性）之间的统计关系

3/N

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

对前沿AI系统进行可预测的扩展性评估是为了预测其能力并据此进行规划这就是为什么我们喜欢扩展定律，例如Kaplan 😍但在常见的"下游"基准测试中预测性能却出乎意料地更难为什么？2/N