Qwen1.5系列的各个模型我都用ElyzaTasks进行了评估。果然,Qwen1.5非常出色。7B模型略逊于Llama3-8B。14B模型超过了35B的Command R!32B模型略低于104B的Command R+。72B模型竟然超过了GPT3.5Turbo和Llama3-70B!不知为何,110B模型的得分却比72B低。仔细看了下回答的内容,发现很多都是用中文回答的,这可能拉低了分数。0.5B和1.8B的表现不行。4B的话,如果努力的话,可能还有用武之地。