2025年11月18日,美团LongCat团队正式发布数学推理评测基准AMO-Bench。该评测集包含50道竞赛专家原创试题,难度对标乃至超越国际数学奥林匹克(IMO)水平,旨在推动人工智能在复杂数学推理领域的技术发展。AMO-Bench将为评估模型逻辑推理与问题解决能力提供高标准测试平台。
2025年11月18日,美团LongCat团队正式发布数学推理评测基准AMO-Bench。该评测集包含50道竞赛专家原创试题,难度对标乃至超越国际数学奥林匹克(IMO)水平,旨在推动人工智能在复杂数学推理领域的技术发展。AMO-Bench将为评估模型逻辑推理与问题解决能力提供高标准测试平台。