热门

最新

红包

立Flag

投票

同城

我的

发布
m0_46163918
程序员的店小二
1 年前
truem0_46163918

Anthropic最新的Claude 3.5 Sonnet 模型 达到了专业博士水平

在最新的Claude 3.5 Sonnet 的技术评测报告中,Claude 3.5 Sonnet在GPQA测试中的得分为67.2%,超过了领域内专业博士的水平。

这是第一次有大语言模型在GPQA测试中突破了65%的得分。

GPQA(Graduate-Level Question Answering)是一个旨在评估语言模型在研究生水平科学知识上的问答能力的基准测试。它通常涉及复杂和深奥的问题,需要模型具有较高的推理和知识整合能力

普通博士(‘Regular’ PhDs)在GPQA测试中的平均得分为34%。

专门领域的博士(in-domain specialized PhDs)在GPQA测试中的得分为65%。

虽然目前没有GPT-4o和GPT-4T在此评估中的具体对比数据,但可以推断Claude 3.5 Sonnet的表现优于这些模型,因为它在0-shot CoT评估中的得分也高于它们(GPT-4o得分为53.6%,GPT-4T得分为48.0%)。

AI资讯
CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条:
看看吧。苹果的AI云系统做出了巨大的隐私承诺,但它能兑现吗?https://gizmodo.com/apple-intelligence-ai-privacy-security-private-cloud-1851536375?utm_medium=sharefromsite&utm_source=gizmodo_twitter via @幽幽一笑
立即登录