微软与亚利桑那州立大学携手推出名为“Magentic Marketplace(磁性市场)”的AI代理仿真测试平台,用于评估AI代理在复杂场景下的行为表现。该平台模拟客户与商家代理的交互场景,研究发现当前GPT-4o、GPT-5、Gemini-2.5-Flash等主流AI模型存在三大问题:易被操控、信息过载及协作能力不足。实验显示,商家代理可通过策略诱导客户代理做出决策;当选项数量过多时,客户代理的决策效率会显著下降。此外,多代理协作场景中角色分工模糊,需依赖外部指令才能提升表现。目前该项目已开源,旨在推动对AI代理自主性与可靠性的深入研究。免责声明:本文内容由开放智能模型自动生成,仅供参考。