每日AI评测速递来啦（1.30）司南·DailyBenchm-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

3 月前

trueopencompass

每日 AI 评测速递来啦（1.30）
司南·Daily Benchmark 专区今日上新！

CAR-bench
一个面向车载助手场景的评测基准，用于评估多轮、可调用工具的 LLM 智能体在一致性、不确定性处理能力以及能力边界认知方面的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2022027

BioAgent Bench
一个用于衡量 AI 智能体在常见生物信息学任务中性能与鲁棒性的评测基准数据集及评估体系，包含经过精心整理的端到端任务（如 RNA-seq、变异检测、宏基因组分析等）。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2021800

EmboCoach-Bench
一个用于评测 LLM 智能体自主设计具身策略能力的基准，涵盖 32 个由专家精心设计的强化学习（RL）与模仿学习（IL）任务，并以可执行代码作为统一接口。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2021570

IDE-Bench
一个用于评测 AI IDE 智能体在真实世界软件工程任务中表现的综合评测框架，通过 IDE 原生工具接口对模型能力进行系统化衡量。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2020886

大模型

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条动态