阿里千问模型Qwen3.7-MaX发布。

在2026阿里云峰会上,阿里巴巴正式发布了全新一代千问旗舰模型Qwen3.7-Max,这标志着千问系列近三个月内的第三次重大迭代。自今年3月以来,从3.5到3.6再到3.7,千问旗舰大模型以稳定的节奏不断刷新国产模型的性能上限。在发布会现场,阿里云同步宣布面向Agentic时代全面升级,重磅推出全新的“芯-云-模型-推理”技术体系,为下一代人工智能应用提供了更为坚实的技术底座。
作为面向智能体时代打造的全新旗舰模型,Qwen3.7-Max在多项基础性能上实现了显著提升。无论是在语言理解与生成、逻辑推理计算,还是在知识储备与常识、指令遵循与对齐等维度,该模型都展现出了强大的综合实力。在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max一举超过了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等主流国产模型,与GPT、Claude、Gemini的最强模型表现接近,成功登顶国产模型第一位。
在编程与推理等核心能力上,Qwen3.7-Max实现了重点突破。它在SWE-Pro、SWE-Multilingual等编程智能体测评中均取得领先表现,在Terminal Bench 2.0-Terminus得分69.7,超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等一众模型。推理能力方面,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb等核心推理评测中同样超越了Claude-Opus4.6及所有国产模型。在指令遵循IFBench评测中,该模型更是以79.1分创下新高。
尤为引人注目的是,Qwen3.7-Max展现了超长程自主执行能力。在一次真实的芯片内核优化实验中,模型在一个全新的硬件平台上,无需任何性能分析数据或硬件文档,从空白工作空间出发,独立运行了35小时,自主进行了432次内核评估和1158次工具调用,最终实现了推理速度较原版本10倍的提升。测试轨迹显示,模型在运行超过30小时后仍能发现有效优化点,甚至主动发起了一次关键的架构重设计。
在通用智能体能力方面,Qwen3.7-Max在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试中表现优异,超越了GLM5.1、Kimi-K2.6等模型,创下国产新高。同时,该模型还支持多种Harness框架,在Claude Code、OpenClaw、Qwen Code等框架下均能稳定发挥,展现出良好的跨框架泛化能力。通过MCP集成和多智能体协作,该模型在办公自动化基准测试中也取得了优异成绩。
据了解,Qwen3.7-Max模型API即将上线阿里云百炼平台。后续,千问3.7系列还将推出Qwen3.7-Plus等不同版本,拥有极强的多模态推理与视觉理解能力,实现从编程智能体到视觉智能体的全覆盖,为下一代AI应用提供全能的智能体新基座。

上一篇:

下一篇:

联系我们

18658854422

微信号:JZL99876

邮件:474804@qq.com

工作时间:周一至周五,9:00-18:00,节假日休息