8.1.20260102 DeepSeek发布mHC新架构 解决大模型训练不稳定问题

deepseek发布mHC新架构 解决大模型训练不稳定问题

#产品记录 #deepseek

DeepSeek研究团队于2026年1月1日发布题为《mHC: Manifold-Constrained Hyper-Connections》的论文,提出流形约束超连接(mHC)新架构,旨在解决传统超连接(HC)在大规模模型训练中的不稳定性问题,同时保持其性能增益。

论文第一作者包括Zhenda Xie、Yixuan Wei和Huanqi Cao,DeepSeek创始人兼CEO[[梁文锋]]也位列作者名单。传统HC通过扩展残差流宽度提升模型表达能力,但自由学习的连接矩阵破坏了残差网络的恒等映射属性,导致训练中出现信号爆炸或消失问题,并显著增加显存开销。

mHC架构通过Sinkhorn-Knopp算法将残差连接矩阵投影到双拟随机矩阵流形上,使信号传播变为特征的凸组合,从数学上严格保证范数稳定性。实验显示,在27B参数模型上,mHC在扩展倍率n=4时仅增加6.7%训练时间开销,训练损失降低0.021,梯度范数保持稳定,并在BBH和DROP任务上分别实现2.1%和2.3%的性能提升。

研究团队还开发了内核融合、选择性重计算和扩展DualPipe通信计算重叠策略等工程优化,有效控制计算与内存开销。该架构为基础模型的拓扑演进提供了新方向。

滚动至顶部
酷口家数字花园 粤ICP备17140089号-1