02/03/2026 14:16
【AI】阿里發布兩款語音新模型,可定制角色及模擬背景音
3月2日,阿里發布兩款語音新模型,基於參考音頻的聲音克隆模型Fun-CosyVoice3.5和無參考音頻的音色設計模型Fun-AudioGen-VD。兩款模型均引入「指令遵循」能力,自由控制聲音的情感、語速、場景等,可用freestyle(自由風格模式)定制角色,適用於有聲書、遊戲、客服、播客、教育、直播等多個場景。即日起,用戶可在阿里雲百煉調用這兩款最新模型。
據了解,兩款模型在同尺寸模型的基準評測中斬獲多項SOTA。在Seed-TTS基準測試的中文「困難案例」指標中,Fun-CosyVoice3.5表現搶眼,詞錯誤率(Word Error Rate, WER)和說話人相似度(Speaker Similarity, SSIM),均為最佳。同時,因為優化了「困難案例」的發音,生僻字句錯率由15.2%降低到5.3%。
官方介紹稱,兩款模型均支持通過自然語言指令控制語音生成,但應用方向不同:Fun-CosyVoice3.5支持自由風格模式指令控制,Fun-AudioGen-VD則專注「從無到有」的音色設計,其不僅能根據描述定制音色和情感,還能同步模擬複雜的聽覺環境。此外,Fun-CosyVoice3.5所用的tokenizer幀率減半,提高了訓練效率,並且首包延遲降低35%,大幅提升了實時交互體驗。
《經濟通通訊社2日專訊》
據了解,兩款模型在同尺寸模型的基準評測中斬獲多項SOTA。在Seed-TTS基準測試的中文「困難案例」指標中,Fun-CosyVoice3.5表現搶眼,詞錯誤率(Word Error Rate, WER)和說話人相似度(Speaker Similarity, SSIM),均為最佳。同時,因為優化了「困難案例」的發音,生僻字句錯率由15.2%降低到5.3%。
官方介紹稱,兩款模型均支持通過自然語言指令控制語音生成,但應用方向不同:Fun-CosyVoice3.5支持自由風格模式指令控制,Fun-AudioGen-VD則專注「從無到有」的音色設計,其不僅能根據描述定制音色和情感,還能同步模擬複雜的聽覺環境。此外,Fun-CosyVoice3.5所用的tokenizer幀率減半,提高了訓練效率,並且首包延遲降低35%,大幅提升了實時交互體驗。
《經濟通通訊社2日專訊》
【馬年行大運】即睇馬年開運指南,多位師傅教你趨吉避凶方法!► 立即收睇
-
上一篇
【中東戰火】攜程、飛豬、去哪兒網、同程等助受影響用戶退款退訂 02/03/2026 14:44
-
下一篇
《午市前瞻》中東戰雲密布恒指曾失二萬六,油價被推高惟中長線難持久 02/03/2026 12:45
-
162億北水進場助港股守兩萬六,恒指全日震盪下跌570點收報26059 02/03/2026 16:11
-
《大手成交》阿里一手約52萬股非自動對盤,涉資7203萬元 02/03/2026 15:38
-
《異動股》阿里挫逾5%失守250天線,現報135﹒7元 02/03/2026 15:15
-
恒指曾穿兩萬六後回穩,半日跌424點報26205,科技金融股領跌 02/03/2026 12:06
-
【AI】千問AI眼鏡今起「0元預約」,3月8日中國市場現貨發售 02/03/2026 10:35
備註︰
即時報價更新時間為 02/03/2026 17:59
港股即時基本市場行情由香港交易所提供; 香港交易所指定免費發放即時基本市場行情的網站