严格的研究 // 所有模型都在包括 Berkeley Function Calling Leaderboard、ToolBench、ToolQuery 和 Webshop 在内的关键基准工具上进行了测试。