阿里语音大模型登顶Speech Arena国产第一，全球第五

5月28日，在全球权威AI评测平台Artificial Analysis的语音排行榜（Speech Arena）上，阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分的Elo评分位列全球第五、国产第一。这一成绩标志着国产语音AI技术在国际竞技场上实现了重要突破，阿里也成为首个在该权威榜单中跻身全球前五的中国企业。
在ASR（将语音转为文字）、Chat（端到端的语音理解与对话）以及TTS（将文字转为语音）三个核心赛道，该模型均斩获全国第一，实现语音交互领域的“大满贯”。语音大模型的能力可拆解为三个层次：听得准、聊得棒、说得好，三者各自独立又相互依赖，共同构成完整的语音交互体验。此前，阿里语音大模型家族的另外两款模型——Fun-Realtime-ASR和Fun-Realtime-AudioChat，已在同一平台登顶，分别斩获“听准”“听懂”“会聊”三项指标全球第一，整体表现超越GPT-Realtime-2等国际顶尖语音模型。
本次上榜的Fun-Realtime-TTS-Preview，是阿里语音团队在实时语音合成领域的一次重大突破。以往的语音合成往往面临“高自然度”与“极速响应”难以兼得的困境，而阿里通过端到端的深度架构，成功实现了在毫秒级延迟下输出媲美真人语调的语音效果。这种实时化能力，对于智能汽车交互、数字人直播、实时翻译及智能客服等对时效性要求极高的场景具有决定性意义。
目前，阿里语音大模型家族已深度融入千问App、高德地图、钉钉等国民级应用，提供实时语音转文字、智能导航交互、会议纪要生成等核心服务。此外，该模型还提供企业级定制接口，支持金融、医疗等行业场景的灵活适配。阿里语音团队开源的FunASR、CosyVoice等多款模型，在GitHub上累计获得了数万星标，深受海内外开发者关注。业内分析认为，从识别到理解再到合成，阿里打通了语音交互的完整链路，为构建无缝衔接的AI智能体夯实了基础设施，国产语音技术正加速迈向“深度智能”的新阶段。

阿里语音大模型登顶Speech Arena国产第一，全球第五

联系我们

18658854422