Question 1

mHC 会增加模型的推理延迟吗？

Accepted Answer

几乎不会。mHC 的 Sinkhorn 约束主要是在训练阶段进行复杂的矩阵归一化计算。在推理阶段，mHC 的参数已经被固定为普通的矩阵，只需要进行标准的线性代数运算，因此对推理速度的影响微乎其微。

Question 2

为什么以前没人用 mHC 这种方法？

Accepted Answer

双重随机矩阵（Doubly Stochastic Matrix）在数学优化中很常见，但将其应用于超大规模神经网络（特别是解决梯度爆炸问题）是 DeepSeek 的创新。开发 mHC 需要深厚的数学直觉来发现流形约束与信号传播稳定性之间的联系。

Question 3

mHC 只能用于 DeepSeek 的模型吗？

Accepted Answer

不是。mHC 是一种通用的架构组件，理论上可以替换任何 Transformer 或卷积网络中的线性层（Linear Layer）。当模型变得非常宽（Wide）的时候，mHC 的稳定性优势会非常明显，对任何训练大规模模型的实验室都很有价值。

Question 4

mHC 增加了多少计算开销？

Accepted Answer

mHC 在训练期间仅增加约 6.7% 的额外计算开销，考虑到其带来的稳定性收益，这是非常少的。mHC 中的 Sinkhorn 归一化只需要进行几轮行和列的归一化迭代，而在推理阶段，mHC 本质上没有额外开销，因为约束矩阵已经预计算完成。

Question 5

mHC 可以与其他训练稳定性技术结合使用吗？

Accepted Answer

可以。mHC 与梯度裁剪和学习率预热等技术是互补的。这些技术处理的是不稳定性的症状，而 mHC 解决的是根本原因——通过确保连接矩阵始终在 Birkhoff 多胞体流形上。在 DeepSeek 的实验中，将 mHC 与标准训练实践相结合产生了最佳效果。

mHC: 驯服大模型的"狂野"连接

解读 Manifold-Constrained Hyper-Connections 如何在让神经网络变"宽"的同时，防止它"崩溃"。