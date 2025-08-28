27/08/2025 16:31

【ＡＩ】阿里(09988)發布及開源全新語音驅動生視頻模型

《經濟通通訊社27日專訊》阿里巴巴(09988)正式發布並開源全新Wan2.2-S2V語音驅動生視頻(Speech-to-Video)模型，專為數字人視頻創作而開發，公司稱可透過單張圖片及一段音頻，即可生成高品質的動畫視頻。其模型是阿里巴巴Wan2.2視頻生成系列的一員。用戶可在Hugging Face、GitHub以及阿里雲開源社區ModelScope下載Wan2.2-S2V。



阿里稱，Wan2.2-S2V支持肖像、半身以及全身等多種畫幅形式的視頻創作，模型可依據文本指引動態生成人物動作與場景元素，協助專業內容創作者捕捉精準的視覺表現，以滿足特定敘事與設計需求。



該技術亦支持480P、720P的解像度輸出，既適用於社交媒體內容，也適合專業展示。



阿里亦提到，另一項重要突破在於模型創新的幀處理技術，可將任意長度的歷史幀壓縮為單一且緊湊的隱層特徵，大幅降低計算消耗，並成功實現長視頻的穩定生成，從而解決長時段動畫內容製作中的關鍵挑戰。



阿里巴巴已於2025年2月開源Wan2.1系列模型，並於同年7月開源Wan2.2系列模型。至今Wan系列模型在Hugging Face與ModelScope平台的總下載量已突破690萬次。(rh)