🦙 Early Llama 3 8B评估- 基础模型对于微调来说看起来很棒- 指令模型令人失望:与OpenChat/OpenHermes水平相当(但用了1000万样本!)- ORPO只用了1000个样本(和非常低的学习率)就取得了显著进展需要等待微调合并,但有趣的是它显著提高了GPT4All得分。🏆 排行榜:https://huggingface.co/spaces/mlabonne/Yet_Another_LLM_Leaderboard