DeepSeek AI 研究arXiv:2512.24880

mHC: 驯服大模型的"狂野"连接

解读 Manifold-Constrained Hyper-Connections 如何在让神经网络变"宽"的同时,防止它"崩溃"。

现代 AI 想要更强,通常会把网络做得更深、更宽。此前的 Hyper-Connections (HC) 技术极大地扩展了连接宽度,但却像脱缰的野马,容易导致训练不稳定。DeepSeek 提出的 mHC 就像给这匹野马套上了"数学缰绳"(流形约束),让超大规模模型训练既高效又稳定。mHC 技术对于训练 DeepSeek-V3 及更大规模的模型至关重要。

超宽连接 (Hyper)
拒绝梯度爆炸
流形约束 (Stable)

核心痛点:信号爆炸 (Signal Explosion)

当我们简单粗暴地把神经网络的"通道"变宽 (Hyper-Connections) 时,信号在经过几十层传递后会失控。这就像复利效应一样,微小的放大在深层网络中会变成巨大的噪声。mHC 的解决方案确保加宽后的连接在数学上保持有界。

Select Architecture:

信号强度 vs 网络深度

⚠️ 信号失控
135791113151719212325272931333537394143454750Layer Depth03006009001200信号增益

解决方案:Sinkhorn-Knopp 算法

为了解决信号爆炸,mHC 必须强制其内部的连接矩阵满足一个数学条件:每一行的和 = 1,每一列的和 = 1。这就是所谓的"双重随机矩阵"。DeepSeek 使用 Sinkhorn 算法将任意学习到的参数投影到这个约束空间上,确保 mHC 始终保持稳定性。

Col 1
Col 2
Col 3
Row 1
0.50
2.00
1.50
Row 2
1.00
0.20
3.00
Row 3
2.50
1.00
0.50
SUMS:
4.00
3.20
5.00
= 4.00
= 4.20
= 4.00
Status
Steps: 0
Last: Init

mHC 为什么要这样做?

在 mHC 的连接矩阵中,每一个数值代表不同通道之间的"混合比例"。如果行和列的和都被严格限制为 1,那么输入信号在经过这个矩阵变换时,其总能量(范数)就不会被放大或缩小。这从数学原理上消除了梯度爆炸的可能性,这也是 mHC 能实现如此出色训练稳定性的原因。

流形约束 (Manifold Constraint)

论文标题中的"Manifold"指的就是这个"所有行和列之和均为1的矩阵集合"(即 Birkhoff 多胞体)。mHC 将任意的神经网络参数投影到这个特殊的流形上,确保了在扩展宽度的同时,模型的行为依然守规矩。

架构进化史

从经典的残差网络,到激进的 Hyper-Connections,再到 DeepSeek 的 mHC。

1. Residual Connection

Layer
x
x+f(x)

优点: 恒等映射,非常稳定。
缺点: 信息流宽度固定,难以承载更多信息。

Unstable

2. Hyper-Connections

Mix

优点: 拓宽通道,信息容量大增。
缺点: 缺乏约束,信号容易在混合中失控。

New & Stable

3. mHC (Ours)

Sinkhorn
Layer

优点: 继承 HC 的大容量,同时利用 Sinkhorn 算法将连接矩阵约束在安全区,恢复了 ResNet 般的稳定性。

实验结果:稳如磐石

在 27B 参数规模的大模型训练中,普通 HC 架构(红线)在训练中期经常出现 Loss 突增甚至发散(NaN)。没有 mHC 的情况下,这些训练经常完全失败。

使用 mHC(紫线)后,训练表现出极佳的稳定性,不仅没有崩溃,最终的 Loss 还比 Baseline 更低。mHC 架构使模型能够自信地扩展到更大规模。

  • Hyper-Connections: 梯度范数剧烈波动,训练可能随时失败。
  • mHC: 全程平滑收敛,额外计算开销仅 6.7%。

Training Loss Comparison

3k7k12k18k24k30k36k42k49kTraining Steps
*Simulated based on Figure 5

常见问题 (FAQ)

几乎不会。mHC 的 Sinkhorn 约束主要是在训练阶段进行复杂的矩阵归一化计算。在推理阶段,mHC 的参数已经被固定为普通的矩阵,只需要进行标准的线性代数运算,因此对推理速度的影响微乎其微。
双重随机矩阵(Doubly Stochastic Matrix)在数学优化中很常见,但将其应用于超大规模神经网络(特别是解决梯度爆炸问题)是 DeepSeek 的创新。开发 mHC 需要深厚的数学直觉来发现流形约束与信号传播稳定性之间的联系。
不是。mHC 是一种通用的架构组件,理论上可以替换任何 Transformer 或卷积网络中的线性层(Linear Layer)。当模型变得非常宽(Wide)的时候,mHC 的稳定性优势会非常明显,对任何训练大规模模型的实验室都很有价值。
mHC 在训练期间仅增加约 6.7% 的额外计算开销,考虑到其带来的稳定性收益,这是非常少的。mHC 中的 Sinkhorn 归一化只需要进行几轮行和列的归一化迭代,而在推理阶段,mHC 本质上没有额外开销,因为约束矩阵已经预计算完成。
可以。mHC 与梯度裁剪和学习率预热等技术是互补的。这些技术处理的是不稳定性的症状,而 mHC 解决的是根本原因——通过确保连接矩阵始终在 Birkhoff 多胞体流形上。在 DeepSeek 的实验中,将 mHC 与标准训练实践相结合产生了最佳效果。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 3Score: 0

mHC 的主要目的是什么?