02/01/2026 08:51
【AI】梁文鋒署名DeepSeek新論文,提出mHC新架構優化大模型性能
DeepSeek團隊發布新論文,提出了一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。DeepSeek創始人梁文鋒也在作者名單中。
論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬件瓶頸」的方法:mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。
《經濟通通訊社2日專訊》
論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬件瓶頸」的方法:mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。
《經濟通通訊社2日專訊》
獨家優惠【etnet x 環球海產】用戶專享全場95折,特價貨品更可折上折。立即使用優惠代碼【ETN1WWS】,選購五星級酒店級海鮮► 立即瀏覽
-
上一篇
《中國房產》中指院:12月百城新房價格同比上漲超2%,二手… 02/01/2026 08:52
-
下一篇
華虹半導體(01347)近83億人幣代價收購上海華力微電子… 02/01/2026 08:47
-
【國務會議】李強:部署推廣跨境貿易便利化專項行動 02/01/2026 09:20
-
【以舊換新】2025年以舊換新商品銷售額2﹒6萬億元,惠及… 02/01/2026 09:04
-
《中歐關係》商務部批歐盟碳邊境稅不公平,警告將採取必要措施 02/01/2026 08:59
-
華泰證券(06886)提名王會清和周易任執董,獲股東提名4… 02/01/2026 08:47
-
長城汽車(02333)2025年12月汽車銷量12萬輛跌8… 02/01/2026 08:47