2026年1月1日
內地AI初創DeepSeek(深度求索)在元旦日發布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益 。
簡單來說,DeepSeek提出的mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp演算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
這篇論文的第一作者有三位,包括解振達、韋毅軒、Huanqi Cao。值得注意的是,DeepSeek創始人梁文鋒也在作者名單中。