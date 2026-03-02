  • 會員
02/03/2026 14:16

【ＡＩ】阿里發布兩款語音新模型，可定制角色及模擬背景音

　　3月2日，阿里發布兩款語音新模型，基於參考音頻的聲音克隆模型Fun-CosyVoice3.5和無參考音頻的音色設計模型Fun-AudioGen-VD。兩款模型均引入「指令遵循」能力，自由控制聲音的情感、語速、場景等，可用freestyle（自由風格模式）定制角色，適用於有聲書、遊戲、客服、播客、教育、直播等多個場景。即日起，用戶可在阿里雲百煉調用這兩款最新模型。

　　據了解，兩款模型在同尺寸模型的基準評測中斬獲多項SOTA。在Seed-TTS基準測試的中文「困難案例」指標中，Fun-CosyVoice3.5表現搶眼，詞錯誤率(Word Error Rate, WER)和說話人相似度(Speaker Similarity, SSIM)，均為最佳。同時，因為優化了「困難案例」的發音，生僻字句錯率由15.2%降低到5.3%。

　　官方介紹稱，兩款模型均支持通過自然語言指令控制語音生成，但應用方向不同：Fun-CosyVoice3.5支持自由風格模式指令控制，Fun-AudioGen-VD則專注「從無到有」的音色設計，其不僅能根據描述定制音色和情感，還能同步模擬複雜的聽覺環境。此外，Fun-CosyVoice3.5所用的tokenizer幀率減半，提高了訓練效率，並且首包延遲降低35%，大幅提升了實時交互體驗。
《經濟通通訊社2日專訊》

