“如何计算深度学习优化方法的收敛率”

收敛率是什么？

我们小学三年级学的数值分析告诉我们，如果函数是收敛的，即，其中，那么有：

其中，就是的收敛率。

基本理论

SGD 基础

在深度学习的问题当中，我们一般是去解决这样的问题：

其中，是模型，是每一个样本，是我们要优化的参数，是所有的样本。

然后在利用 SGD 对模型进行更新的时候，一般是这样更新的：

这个应该大家都可以理解吧，就是一个梯度更新公式。

-Lipschitz 和 -Strongly Convex

在深度学习领域，我们看 10,000 篇跟优化沾边的论文，9,900 篇都要在证明前加一句：

… Let be -smooth and -strongly convex …

一切都是那么的理所当然，就只有一个问题 —— 这两个东西到底是什么呢？还有很多辣鸡养成了看到这两个词就跳过这段文字的条件反射（比如我）。是时候来直面恐惧了！

-Strongly Convex

首先，-Strongly Convex 表示的是函数是强凸的，数学表达为：

其中，是的定义域，我们知道，一个凸函数的定义如下：

这个式子的直观表示就是对于任意在上的切线，有。

而我们的强凸的数学表达式其实比凸多了一个二项式。因为在凸函数中，我们只限定了函数必须在切线以上，但没有说以上多少。也就是说函数可以无限贴近切线，使得这样的函数在优化中不可行。所以我们相当于给凸「度」限定了下界，使得优化可以被量化。

详细证明的话可以参看这片文章。

Strong convexity

By Xingyu Zhou

-Lipschitz

对于 -Lipschitz，有一篇知乎专栏我觉得讲的很好，大家有时间可以去看一下。没有时间的话我在下面也会把我的理解大概说一下。

非凸优化基石：Lipschitz Condition

知乎

Lipschitz Continus 是说，如果对于函数来说，就是指对于所有的，是的定义域，满足条件

非常直观的，上面这个公式表达的意思就是，所以的函数取值是被限定到一个范围内的。

除了 Lipschitz Continus 以外，还有 Lipschitz Continus Gradient 和 Lipschitz Continus Hessian。 Lipschitz Continus Gradient 是对于函数的梯度/导数来说的。换句话说，如果满足 Lipschitz Continus，则满足 Lipschitz Continus Gradient。 Lipschitz Continus Hessian 同理，若满足 Lipschitz Continus，则满足 Lipschitz Continus Hessian。

我们在深度学习中常用的是 Lipschitz Continus Gradient (-Smooth)。所以我们主要要理解它的数学表达：

直观上理解它和我们理解强凸非常相似，即我们对的变化趋势做了一个限制。我们把绝对值打开这个限制会体现德更清楚一点：

详细证明可以参看这篇文章：

Lipschitz continuous gradient

By Xingyu Zhou

SGD 的收敛率

那我们来小试牛刀，计算一下 SGD 的收敛率吧。

首先 -Smooth 的条件先摆出来：

其中。我们把带入上式有：

然后我们对上式两边取期望有：

可以看到我们有四个期望，第一个和第二个期望我们暂时不动，第三个期望有：

第四项期望稍微复杂一点，我们要通过定义方差来求。

我们假设梯度的方差，我们把这个方差展开有：

所以对于有：

于是，我们吧上面算出的两个单项期望带入整体有：

接下来，我们还有 -Strong Convex （这里用是为了避免和例子中学习率搞混）的数学表达如下：

我们令有，把加减组合成一个和的平方有：

所以有：

我们把上式带入期望的不等式有：

最后，令，有：

其中是 SGD 相对于 GD 带来的干扰。

本文作者 Auther：Soptq

本文链接 Link： https://soptq.me/2020/07/30/ml-converge-rate/

发现存在错别字或者事实错误？请麻烦您点击这里汇报。谢谢您！

以 Stochastic Gradient Descent 为例

收敛率是什么？

基本理论

SGD 基础

-Lipschitz 和 -Strongly Convex

-Strongly Convex

-Lipschitz

SGD 的收敛率

CATALOG

RELATED POSTS

FEATURED TAGS

FRIENDS

收敛率是什么？

基本理论

SGD 基础

L -Lipschitz 和 \mu -Strongly Convex

\mu -Strongly Convex

L -Lipschitz

SGD 的收敛率

CATALOG

RELATED POSTS

FEATURED TAGS

FRIENDS

-Lipschitz 和 -Strongly Convex

-Strongly Convex

-Lipschitz