“矩阵求导”

矩阵求导（Matrix Derivative）也称作矩阵微分（Matrix Differential），在机器学习、图像处理、最优化等领域的公式推导中经常用到。矩阵求导实际上是多元变量的微积分问题，只是应用在矩阵空间上而已，即为标量求导的一个推广，他的定义为将自变量中的每一个数与因变量中的每一个数求导。

具体地，假设存在和，则会将中的每一个值对中的每一个值求导，最后一共会得到个导数值。这么多的导数值，最后是排布成一个的矩阵还是一个的矩阵呢？矩阵求导的关键就在于规定如何排布这么多的导数值。

以分布布局为例子，一共有以下几个矩阵求导法则。分母布局是什么意思呢？简单的说就是以分母为一个基准，希望求导出来的结果和分母的维度相同。除了分母布局以外还有分子布局。分子布局和分母布局的求导结果通常相差一个转置。

基本法则

法则 0 ：标量对标量求导

略。详细的请参考高等数学。

法则 1 ：标量对向量求导

考虑我们有是一个标量，是一个的列向量。则有：

可以看得出，求导出来的结果维度是和分母相同的。若为行向量同理。

法则 2 ：向量对标量求导

考虑我们有是一个的列向量，是一个标量。则有：

可以看得出，这个时候求导出来的结果维度和分子是相反的。若为行向量同理。

法则 3 ：向量对向量求导

考虑我们有是一个的列向量，是一个的列向量。则有：

这时求导结果的维度为

法则 4 ：标量对矩阵求导

考虑我们有是一个标量，是一个矩阵。则有：

同样，我们求导结果和分母的维度一致，是。

法则 5 ：矩阵对向量求导

考虑我们有是一个矩阵，是一个标量。则有：

我们求导的结果与分子相反，为

其余：向量与矩阵之间以及矩阵与矩阵之间的求导

当我们的自变量与因变量都为不为标量时，根据我们对矩阵求导实质的讨论，势必会得出大量的导数难以被排列。例如，一般情况下，假设我们有以及，则求导后我们会得到个导数结果。这时对这些导数一般有两种定义方法。

第一种定义

我们按照之前的法则，将理解为对每一个中的标量，使其对求导，然后将其放回矩阵中的原位。即我们使用替换，最后会得到一个的导数矩阵。

第二种定义（主流）

这种定义是将矩阵对矩阵求导问题归约到向量对向量求导。即对矩阵先做向量化处理，然后再求导：

其中，向量化的实现方法分为列向量化和行向量化。我们以列向量化为例，将和向量化为和，然后利用法则 3 求导得到维度为的导数结果。

有用的公式

下列公式中，和是列向量，是矩阵。下面 3 个公式在文末有证明。

编号	公式
1
2
3

下列公式是一些关于矩阵迹的公式。其中，是一个标量， , , 分为三个矩阵。

编号	公式
1
2
3
4
5
6

一些公式的证明

令：

公式 1

因为和是列向量，所以为一个标量，所以可以用法则 1 进行计算。

公式 2

同理公式 1

公式 3

由题意可得，为标量，则原式为标量对列向量求导，可以用法则 1 进行计算。

由导数法则有：

于是，原式继续有：

本文作者 Auther：Soptq

本文链接 Link： https://soptq.me/2020/06/19/matrix-derivation/

发现存在错别字或者事实错误？请麻烦您点击这里汇报。谢谢您！

分母布局