阿里通义实验室发布两款语音生成模型，支持FreeStyle自然语言指令

2026年3月2日，阿里通义实验室语音团队正式发布两款支持FreeStyle自然语言指令的语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。两款模型在语音合成与音频生成领域实现重要技术突破，进一步提升了AI语音交互的自然度与可控性。
其中，Fun-CosyVoice3.5聚焦多语种语音复刻与精细化表达控制。该模型新增泰语等4种语言支持，显著拓宽了多语种应用场景。同时，在生僻字处理方面实现关键优化，生僻字读错率从15.2%大幅降至5.3%，有效提升了语音合成的准确性与用户体验。用户可通过自然语言指令，灵活控制语音的情感、语速、语调等表达细节，实现更细腻、更个性化的语音生成效果。
两款模型的发布，体现了阿里通义实验室在语音技术领域持续深耕的成果。业内人士认为，FreeStyle自然语言指令的引入，降低了语音生成的技术使用门槛，让开发者与普通用户都能更便捷地调用高质量的语音能力。
未来，随着语音交互场景的不断拓展，Fun-CosyVoice3.5与Fun-AudioGen-VD有望在智能助手、内容创作、多语种服务等领域发挥重要作用，推动AI语音技术向更自然、更智能的方向演进。

阿里通义实验室发布Fun-CosyVoice3.5与Fun-AudioGen-VD两款语音生成模型

联系我们

18658854422