Anthropic最新的Claude3.5Sonnet模型达-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

Anthropic最新的Claude 3.5 Sonnet 模型达到了专业博士水平

在最新的Claude 3.5 Sonnet 的技术评测报告中，Claude 3.5 Sonnet在GPQA测试中的得分为67.2%，超过了领域内专业博士的水平。

这是第一次有大语言模型在GPQA测试中突破了65%的得分。

GPQA（Graduate-Level Question Answering）是一个旨在评估语言模型在研究生水平科学知识上的问答能力的基准测试。它通常涉及复杂和深奥的问题，需要模型具有较高的推理和知识整合能力

普通博士（‘Regular’ PhDs）在GPQA测试中的平均得分为34%。

专门领域的博士（in-domain specialized PhDs）在GPQA测试中的得分为65%。

虽然目前没有GPT-4o和GPT-4T在此评估中的具体对比数据，但可以推断Claude 3.5 Sonnet的表现优于这些模型，因为它在0-shot CoT评估中的得分也高于它们（GPT-4o得分为53.6%，GPT-4T得分为48.0%）。

AI资讯

CSDN App 扫码分享

打赏

复制链接
举报

下一条：

看看吧。苹果的AI云系统做出了巨大的隐私承诺，但它能兑现吗？https://gizmodo.com/apple-intelligence-ai-privacy-security-private-cloud-1851536375?utm_medium=sharefromsite&utm_source=gizmodo_twitter via @幽幽一笑

立即登录