1月26日,阿里发布千问旗舰推理模型Qwen3-Max-Thinking。该模型在事实知识、复杂推理、指令遵循、人类偏好对齐及智能体能力等关键维度显著提升,19项权威基准测试性能媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型。其核心创新包括:1.自适应工具调用能力,可按需调用搜索引擎、代码解释器,已上线Qwen Chat;2.测试时扩展技术(Test-Time Scaling),大幅提升推理性能。
1月26日,阿里发布千问旗舰推理模型Qwen3-Max-Thinking。该模型在事实知识、复杂推理、指令遵循、人类偏好对齐及智能体能力等关键维度显著提升,19项权威基准测试性能媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型。其核心创新包括:1.自适应工具调用能力,可按需调用搜索引擎、代码解释器,已上线Qwen Chat;2.测试时扩展技术(Test-Time Scaling),大幅提升推理性能。