deepseek发布mHC新架构 解决大模型训练不稳定问题
DeepSeek研究团队于2026年1月1日发布题为《mHC: Manifold-Constrained Hyper-Connections》的论文,提出流形约束超连接(mHC)新架构,旨在解决传统超连接(HC)在大规模模型训练中的不稳定性问题,同时保持其性能增益。
论文第一作者包括Zhenda Xie、Yixuan Wei和Huanqi Cao,DeepSeek创始人兼CEO[[梁文锋]]也位列作者名单。传统HC通过扩展残差流宽度提升模型表达能力,但自由学习的连接矩阵破坏了残差网络的恒等映射属性,导致训练中出现信号爆炸或消失问题,并显著增加显存开销。
mHC架构通过Sinkhorn-Knopp算法将残差连接矩阵投影到双拟随机矩阵流形上,使信号传播变为特征的凸组合,从数学上严格保证范数稳定性。实验显示,在27B参数模型上,mHC在扩展倍率n=4时仅增加6.7%训练时间开销,训练损失降低0.021,梯度范数保持稳定,并在BBH和DROP任务上分别实现2.1%和2.3%的性能提升。
研究团队还开发了内核融合、选择性重计算和扩展DualPipe通信计算重叠策略等工程优化,有效控制计算与内存开销。该架构为基础模型的拓扑演进提供了新方向。
推荐文章
- 5.1.20250816 DeepSeek (0.864)
- 3.1.20250720 梁文锋 (0.864)
- 8.0.20250822 DeepSeek V3.1:混合架构与128K上下文 (0.864)
- 8.1.20251023 DeepSeek开源OCR模型采用上下文光学压缩技术提升长文本处理效率 (0.864)
- 8.1.20251201 DeepSeek 发布 V3.2 和 V3.2-Speciale 模型,强化 Agent 能力并融入思考推理 (0.864)
- 9.3.20250824 冯唐:如何避免成为一个油腻的中年猥琐男 (RANDOM - 0.500)