热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
每日 AI 评测速递来啦(1.27)司南·Daily Benchmark 专区今日上新!Q-Bench-Portrait 首个专门针对人像图像质量感知设计的整体性基准,包含 2,765 组图像-问题-答案三元组,涵盖多源图像、多维质量指标及多种问题形式。 https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018346GLEN-Bench 首个基于图-语言的综合营养健康评估基准,支持个性化风险检测、膳食推荐和可解释问答。https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018106Health-ORSC-Bench 旨在系统衡量医疗场景下的 过度拒绝 和 安全完成 质量,包含 31,920 条无害边界提示,覆盖七类健康主题(如自伤、医疗误信息等)。 https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2017642TEA-Bench 首个用于评估工具增强型情感支持智能体的交互式基准,包含真实情感场景、MCP 风格的工具环境,以及能够综合评估情感支持质量和事实落地的过程级指标。 https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018700