热门
最新
红包
立Flag
投票
同城
我的
发布
每日 AI 评测速递来啦(1.30)
司南·Daily Benchmark 专区今日上新!
CAR-bench
一个面向车载助手场景的评测基准,用于评估多轮、可调用工具的 LLM 智能体在一致性、不确定性处理能力以及能力边界认知方面的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2022027
BioAgent Bench
一个用于衡量 AI 智能体在常见生物信息学任务中性能与鲁棒性的评测基准数据集及评估体系,包含经过精心整理的端到端任务(如 RNA-seq、变异检测、宏基因组分析等)。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2021800
EmboCoach-Bench
一个用于评测 LLM 智能体自主设计具身策略能力的基准,涵盖 32 个由专家精心设计的强化学习(RL)与模仿学习(IL)任务,并以可执行代码作为统一接口。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2021570
IDE-Bench
一个用于评测 AI IDE 智能体在真实世界软件工程任务中表现的综合评测框架,通过 IDE 原生工具接口对模型能力进行系统化衡量。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2020886
大模型
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报