阿里正加速Qwen主模型的迭代节奏。智东西5月19日报道,今天,阿里的Qwen3.7系列预览版模型已上线,共有Max和Plus两个版本。大模型竞技场也放出了Qwen3.7-Max-Preview的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上,Qwen3.7-Max-Preview排名第13,介于谷歌Gemini 2.5 Flash和Anthropic Claude 3.5 Haiku之间。这个排名虽然未能进入前十,但对于一个预览版模型而言,已是相当不俗的成绩,展现出阿里在大模型赛道上持续追赶的决心。
从具体能力维度来看,Qwen3.7-Max-Preview在不同评测项目中表现各有千秋。在硬提示词(Hard Prompts)评测中,该模型排名第11,说明其在处理复杂、苛刻的指令时具备较强的理解和执行能力;在代码编程(Coding)评测中,同样位列第11,这对于需要辅助开发的用户来说是一个积极的信号;而在长查询(Longer Query)评测中,它则取得了第8名的好成绩,意味着模型在处理需要结合广泛上下文信息的任务时表现出色。这三个维度的排名均优于其总分排名,显示出Qwen3.7-Max-Preview在深度理解、逻辑推理和专业任务处理上的扎实功底。
不过,评测结果也揭示了当前版本的短板所在。在数学(Math)和中文(Chinese)两个维度上,模型的排名相对靠后。数学能力的不足可能影响其在科研、金融分析等高精度场景中的应用;而中文能力的排名偏低则显得尤为扎眼——作为一家中国科技公司出品的模型,在母语理解与生成上未能展现明显优势,这一点值得阿里团队在后续迭代中重点优化。毕竟,本土化能力本就是国产大模型参与国际竞争的差异化武器。
总体来看,Qwen3.7-Max-Preview的快速上线本身就是一种信号:阿里正在以更敏捷的节奏推动模型进化,通过预览版快速收集反馈、加速迭代。尽管当前版本在个别维度上仍有提升空间,但它在代码、长文本等关键能力上的表现已经具备一定的竞争力。随着正式版的推出和持续优化,Qwen系列能否在群雄逐鹿的大模型市场中进一步突围,值得持续关注。