每日AI评测速递来啦（1.27）司南·DailyBenchm-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

3 月前

trueopencompass

每日 AI 评测速递来啦（1.27）
司南·Daily Benchmark 专区今日上新！

Q-Bench-Portrait
首个专门针对人像图像质量感知设计的整体性基准，包含 2,765 组图像-问题-答案三元组，涵盖多源图像、多维质量指标及多种问题形式。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018346

GLEN-Bench
首个基于图-语言的综合营养健康评估基准，支持个性化风险检测、膳食推荐和可解释问答。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018106

Health-ORSC-Bench
旨在系统衡量医疗场景下的过度拒绝和安全完成质量，包含 31,920 条无害边界提示，覆盖七类健康主题（如自伤、医疗误信息等）。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2017642

TEA-Bench
首个用于评估工具增强型情感支持智能体的交互式基准，包含真实情感场景、MCP 风格的工具环境，以及能够综合评估情感支持质量和事实落地的过程级指标。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2018700

大模型

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条动态