美团LongCat发布对标IMO的高难度数学推理评测基准AMO-Bench

2025年11月18日，美团LongCat团队正式发布数学推理评测基准AMO-Bench。该评测集包含50道竞赛专家原创试题，难度对标乃至超越国际数学奥林匹克（IMO）水平，旨在推动人工智能在复杂数学推理领域的技术发展。AMO-Bench将为评估模型逻辑推理与问题解决能力提供高标准测试平台。