8.1.20260102 DeepSeek发布mHC新架构解决大模型训练不稳定问题

deepseek发布mHC新架构解决大模型训练不稳定问题

DeepSeek研究团队于2026年1月1日发布题为《mHC: Manifold-Constrained Hyper-Connections》的论文，提出流形约束超连接（mHC）新架构，旨在解决传统超连接（HC）在大规模模型训练中的不稳定性问题，同时保持其性能增益。

论文第一作者包括Zhenda Xie、Yixuan Wei和Huanqi Cao，DeepSeek创始人兼CEO[[梁文锋]]也位列作者名单。传统HC通过扩展残差流宽度提升模型表达能力，但自由学习的连接矩阵破坏了残差网络的恒等映射属性，导致训练中出现信号爆炸或消失问题，并显著增加显存开销。

mHC架构通过Sinkhorn-Knopp算法将残差连接矩阵投影到双拟随机矩阵流形上，使信号传播变为特征的凸组合，从数学上严格保证范数稳定性。实验显示，在27B参数模型上，mHC在扩展倍率n=4时仅增加6.7%训练时间开销，训练损失降低0.021，梯度范数保持稳定，并在BBH和DROP任务上分别实现2.1%和2.3%的性能提升。

研究团队还开发了内核融合、选择性重计算和扩展DualPipe通信计算重叠策略等工程优化，有效控制计算与内存开销。该架构为基础模型的拓扑演进提供了新方向。

推荐文章

deepseek发布mHC新架构 解决大模型训练不稳定问题

deepseek发布mHC新架构解决大模型训练不稳定问题