Anthropic最新的Claude 3.5 Sonnet 模型 达到了专业博士水平
在最新的Claude 3.5 Sonnet 的技术评测报告中,Claude 3.5 Sonnet在GPQA测试中的得分为67.2%,超过了领域内专业博士的水平。
这是第一次有大语言模型在GPQA测试中突破了65%的得分。
GPQA(Graduate-Level Question Answering)是一个旨在评估语言模型在研究生水平科学知识上的问答能力的基准测试。它通常涉及复杂和深奥的问题,需要模型具有较高的推理和知识整合能力
普通博士(‘Regular’ PhDs)在GPQA测试中的平均得分为34%。
专门领域的博士(in-domain specialized PhDs)在GPQA测试中的得分为65%。
虽然目前没有GPT-4o和GPT-4T在此评估中的具体对比数据,但可以推断Claude 3.5 Sonnet的表现优于这些模型,因为它在0-shot CoT评估中的得分也高于它们(GPT-4o得分为53.6%,GPT-4T得分为48.0%)。