悉尼·斯威尼在一次采访中透露,她担心对LLM基准测试的依赖。“这是一个破碎的系统,如果你想声称自己拥有SoTA(最先进的技术),那么这个系统太容易被操纵了。排名并不反映真实的性能。”她补充说:“我宁愿在r/LocalLLaMA上获取氛围。”