我提议将遭遇测试(Encounter Test)作为AI的一个书呆子基准标准。让AI模拟两个D&D(龙与地下城)生物之间的遭遇,并看看它需要多长时间才会出错。卓尔精灵 vs. 心灵捕食者:GPT-4o表现最好,Gemini很可爱。结果相似(我相信更好的提示会有帮助)