美团LongCat发布对标IMO的高难度数学推理评测基准AMO-Bench

2025年11月18日,美团LongCat团队正式发布数学推理评测基准AMO-Bench。该评测集包含50道竞赛专家原创试题,难度对标乃至超越国际数学奥林匹克(IMO)水平,旨在推动人工智能在复杂数学推理领域的技术发展。AMO-Bench将为评估模型逻辑推理与问题解决能力提供高标准测试平台。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

17764557165

微信号:JZL99876

邮件:474804@qq.com

工作时间:周一至周五,9:00-18:00,节假日休息