热门
最新
红包
立Flag
投票
同城
我的
发布
笑笑口常开啊
4 年前
trueweixin_36965222
好吧,我本希望推特在我不得不为我的EMNLP论文起草、获取评论、修改和发布一个帖子之前就会消失(这是作为博士生最糟糕的部分),但 :/
下一条:
LLM真的能在长上下文中推理吗?🤔NoCha让LLM验证关于*新*小说的说法🪄 📚⛔ 在大海捞针中表现出色的LLM(~100%)在NoCha上表现不佳!⛔ 11个测试的LLM中没有一个达到人类表现标准——97%。表现最好的-4o也仅得到55.8%。
立即登录