Gemma2-9B的SPPO模型在AlpacaEval上的胜率也非常高,几乎可以媲美GPT-4T,因此在Shaberi3基准测试中得7.9分也不足为奇,但这确实有些异常。https://tatsu-lab.github.io/alpaca_eval/