阿里发布语音识别大模型Fun-ASR1.5

4月20日，阿里巴巴通义实验室正式发布端到端语音识别大模型Fun-ASR1.5。这款模型最大的技术突破在于其“化繁为简”的设计理念——无需预设语种标签，单一模型即可高精度识别全球30种主流语言。这意味着无论是英语、日语、阿拉伯语，还是中英文夹杂的“混说”场景，模型都能自动判断并精准转写。在技术架构上，Fun-ASR1.5采用了混合专家（MoE）架构，针对不同语言和场景激活对应的专家模块，在保持庞大知识库的同时有效控制推理成本。此外，模型还强化了文本归一化能力，能够智能处理标点、数字、日期格式，将口语化的“三千五百六十二”自动转换为规范的“3562”，大幅减少后期人工编辑的工作量。
在方言识别方面，Fun-ASR1.5实现了质的飞跃。新版本全面覆盖中文七大方言体系及二十余种地方口音，从吴侬软语的“侬”到中原官话的特色表达，模型均能原汁原味地保留方言独有的词汇与文化信息，而非简单转写为标准普通话。测试数据显示，典型方言场景的字错误率相对下降56.2%，其中已有5种方言的准确率突破90%，15种超过80%。尤其值得一提的是，模型针对古诗词诵读进行了专项优化，构建了从先秦到近代的语音-文本对齐语料库，字符级准确率高达97%。这意味着即便是语调跌宕、断句独特的诗词吟诵，也能实现高精度转写，为传统文化数字化提供了有力的技术支撑。
目前，Fun-ASR1.5已通过阿里云百炼平台上线API服务，并在魔搭社区开放直接体验。此前的1.0版本已经成功应用于钉钉AI听记、DingTalk A1录音机等智能硬件，在会议纪要、课堂笔记等场景中积累了丰富经验。全新升级的1.5版本将应用场景大幅拓宽，覆盖跨国企业会议、多语直播、县域政务服务、古诗词教育、金融客服质检等多个垂直领域。从“听得清”到“听得懂”，Fun-ASR1.5的发布标志着语音识别技术在通用性与精准度的平衡上迈出了关键一步，为各行各业提供了更自然、更高效的语音交互体验。

阿里发布语音识别大模型Fun-ASR1.5

联系我们

18658854422