梯度 您所在的位置:网站首页 csin函数单调性 梯度

梯度

#梯度| 来源: 网络整理| 查看: 265

梯度下降几乎可以说已经成为深度学习领域的标配优化算法。本文记录一下关于梯度下降的基础。 举例均以二元函数为例。

多元函数单调性的定义

由于多元函数在空间中形成的是曲面,我们知道过曲面上的一点可以得到无数条切线。因此,不能像一元函数那样只沿着 x x x轴研究函数变化。 首先引入多元函数的单调性定义。

方向导数定义 : 若函数 u = f ( x , y ) u = f(x,y) u=f(x,y)在点 p ( x , y ) p(x,y) p(x,y)处可微,射线 l l l的方向向量是 ( c o s α , c o s β ) (cos\alpha,cos\beta ) (cosα,cosβ),则函数 u ( x , y ) u(x,y) u(x,y)在点 p p p处沿射线 l l l方向的导数存在。 记为 ∂ u ∂ l    =    ∂ u ∂ x × cos ⁡ α    +    ∂ u ∂ y × cos ⁡ β \frac{\partial u}{\partial l}\;=\;\frac{\partial u}{\partial x}\times\cos\alpha\;+\;\frac{\partial u}{\partial y}\times\cos\beta ∂l∂u​=∂x∂u​×cosα+∂y∂u​×cosβ

方向导数代表函数在某一方向上的变化率。 单调性定义: 设函数 u = f ( x , y ) u=f(x,y) u=f(x,y)在区域 I I I内连续,有向线段 l = A B ⇀ ∈ I l = \overset\rightharpoonup {AB} \in I l=AB⇀∈I,若 u = f ( x , y ) u = f(x,y) u=f(x,y)在线段 ( A , B ) (A,B) (A,B)上处处可微,则:

(1)若在(A,B)内有 ∂ u ∂ l > 0 \frac{\partial u}{\partial l} > 0 ∂l∂u​>0,则 u = f ( x , y ) u = f(x,y) u=f(x,y)在有向线段 A B ⇀ \overset\rightharpoonup {AB} AB⇀上单调递增。 (2)若在(A,B)内有 ∂ u ∂ l < 0 \frac{\partial u}{\partial l} < 0 ∂l∂u​ \left|grad(\frac{\partial u}{\partial x},\frac{\partial u}{\partial y})\right|\cdot\left|e\right|\cdot\cos ∣∣∣​grad(∂x∂u​,∂y∂u​)∣∣∣​⋅∣e∣⋅cos

前两项为固定值,因此当第三项取最大时得到最大方向导数,此时方向与梯度保持一致,因此该方向有最大的变化率。其次,由于前两项为模,因此该方向导数肯定大于0,根据单调性的定义可知该方向函数是增长的。这也是梯度下降的基础。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有