热门
最新
红包
立Flag
投票
同城
我的
发布
每日 AI 评测速递来啦(1.27)
司南·Daily Benchmark 专区今日上新!
Q-Bench-Portrait
首个专门针对人像图像质量感知设计的整体性基准,包含 2,765 组图像-问题-答案三元组,涵盖多源图像、多维质量指标及多种问题形式。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018346
GLEN-Bench
首个基于图-语言的综合营养健康评估基准,支持个性化风险检测、膳食推荐和可解释问答。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018106
Health-ORSC-Bench
旨在系统衡量医疗场景下的 过度拒绝 和 安全完成 质量,包含 31,920 条无害边界提示,覆盖七类健康主题(如自伤、医疗误信息等)。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2017642
TEA-Bench
首个用于评估工具增强型情感支持智能体的交互式基准,包含真实情感场景、MCP 风格的工具环境,以及能够综合评估情感支持质量和事实落地的过程级指标。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018700
大模型
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报