热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
2 年前
truetechsavvyarankomatsuzaki

深层次的不合理无效性

发现在各种问答基准测试中,直到移除了大部分(高达一半)的层,大型语言模型的性能才会出现微小的下降。

https://arxiv.org/abs/2403.17887

CSDN App 扫码分享
分享
7
335
  • 复制链接
  • 举报
下一条:
马斯克需要取消dojo项目,并向Jensen购买一百万个GPU。
立即登录