【转载】Hessian矩阵与多元函数极值

2024-01-29 22:10| 来源: 网络整理| 查看: 265

转自：https://blog.csdn.net/baimafujinji/article/details/51167852

海塞矩阵（Hessian Matrix），又译作海森矩阵，是一个多元函数的二阶偏导数构成的方阵。尽管它是一个具有悠久历史的数学成果，但是在机器学习和图像处理（例如SIFT和SURF特征检测）中，我们也常常遇到它。所以本文就来向读者道一道Hessian Matrix的来龙去脉。本文的主要内容包括：

多元函数极值问题泰勒展开式与Hessian矩阵多元函数极值问题

回想一下我们是如何处理一元函数求极值问题的。例如，f(x)=x2f(x)=x2，我们会先求一阶导数，即f′(x)=2xf′(x)=2x，根据费马定理极值点处的一阶导数一定等于 00。但这仅是一个必要条件，而非充分条件。对于f(x)=x2f(x)=x2来说，函数的确在一阶导数为零的点取得了极值，但是对于f(x)=x3f(x)=x3来说，显然只检查一阶导数是不足以下定论的。

这时我们需要再求一次导，如果二阶导数 f′′f′′>0f″>0，则说明函数在该点取得局部极小值；如果 f′′=0f″=0，则结果仍然是不确定的，我们就不得不再通过其他方式来确定函数的极值性。

如果要在多元函数中求极值点，方法与此类似。作为一个示例，不妨用一个三元函数 f=f(x,y,z)f=f(x,y,z) 来作为示例。首先要对函数中的每个变量分别求偏导数，这会告诉我们该函数的极值点可能出现在哪里。即

∂f∂x=0∂f∂y=0∂f∂x=0∂f∂x=0∂f∂y=0∂f∂x=0 接下来，要继续求二阶导数，此时包含混合偏导数的情况一共有 99 个，如果用矩阵形式来表示的话就得到 H=⎡⎣⎢⎢⎢⎢⎢∂2f∂x∂x∂2f∂y∂x∂2f∂z∂x∂2f∂x∂y∂2f∂y∂y∂2f∂z∂y∂2f∂x∂z∂2f∂y∂z∂2f∂z∂z⎤⎦⎥⎥⎥⎥⎥H=[∂2f∂x∂x∂2f∂x∂y∂2f∂x∂z∂2f∂y∂x∂2f∂y∂y∂2f∂y∂z∂2f∂z∂x∂2f∂z∂y∂2f∂z∂z]

这个矩阵就称为Hessian矩阵。当然上面所给出的仅仅是一个三阶的Hessian矩阵。稍作扩展，我们可以对一个在定义域内二阶连续可导的实值多元函数 f(x1,x2,⋯,xn)f(x1,x2,⋯,xn) 定义其Hessian矩阵HH如下

H=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f∂x21∂2f∂x2∂x1⋮∂2f∂xn∂x1∂2f∂x1∂x2∂2f∂x22⋮∂2f∂xn∂x2⋯⋯⋱⋯∂2f∂x1∂xn∂2f∂x2∂xn⋮∂2f∂x2n⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥H=[∂2f∂x12∂2f∂x1∂x2⋯∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22⋯∂2f∂x2∂xn⋮⋮⋱⋮∂2f∂xn∂x1∂2f∂xn∂x2⋯∂2f∂xn2]

当一元函数的二阶导数等于 00 时，我们并不能确定函数在该点的极值性。类似地，面对Hessian矩阵，仍然存在无法断定多元函数极值性的的情况，即当Hessian矩阵的行列式为 00 时，我们无法确定函数是否能取得极值。甚至我们可能会得到一个鞍点，也就是一个既非极大值也非极小值的的点。

基于Hessian矩阵，就可以判断多元函数的极值情况了，结论如下

如果是正定矩阵，则临界点处是一个局部极小值如果是负定矩阵，则临界点处是一个局部极大值如果是不定矩阵，则临界点处不是极值

如何判断一个矩阵是否是正定的，负定的，还是不定的呢？一个最常用的方法就是顺序主子式。实对称矩阵为正定矩阵的充要条件是的各顺序主子式都大于零。当然这个判定方法的计算量比较大。对于实二次型矩阵还有一个判定方法：实二次型矩阵为正定二次型的充要条件是的矩阵的特征值全大于零。为负定二次型的充要条件是的矩阵的特征值全小于零，否则是不定的。

如果你对二次型的概念仍然不很熟悉，这里也稍作补充。定义含有 nn 个变量 x1,x2,⋯,xnx1,x2,⋯,xn 的二次齐次函数

f(x1,x2,⋯,xn)=a11x21+a22x22+⋯+annx2n+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xnf(x1,x2,⋯,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xn 为二次型。取 aij=ajiaij=aji，则 2aijxixj+ajixjxi2aijxixj+ajixjxi，于是上式可以写成 f==a11x21+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+⋯+an1xnx1+an2xnx2+⋯+annx2n∑i,j=1naijxixjf=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+⋯+an1xnx1+an2xnx2+⋯+annxn2=∑i,j=1naijxixj 更进一步，如果用矩阵对上式进行改写，则有 f===x1(a11x1+a12x2+⋯+a1nxn)+x2(a21x1+a22x2+⋯+a2nxn)+⋯+xn(an1x1+an2x2+⋯+annxn)(x1,x2,⋯,xn)⎡⎣⎢⎢⎢⎢a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxn⋮an1x1+an2x2+⋯+annxn⎤⎦⎥⎥⎥⎥(x1,x2,⋯,xn)⎡⎣⎢⎢⎢⎢⎢a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢x1x2⋮xn⎤⎦⎥⎥⎥⎥f=x1(a11x1+a12x2+⋯+a1nxn)+x2(a21x1+a22x2+⋯+a2nxn)+⋯+xn(an1x1+an2x2+⋯+annxn)=(x1,x2,⋯,xn)[a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxn⋮an1x1+an2x2+⋯+annxn]=(x1,x2,⋯,xn)[a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann][x1x2⋮xn] 记 A=⎡⎣⎢⎢⎢⎢⎢a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎤⎦⎥⎥⎥⎥⎥,x=⎡⎣⎢⎢⎢⎢x1x2⋮xn⎤⎦⎥⎥⎥⎥A=[a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann],x=[x1x2⋮xn] 则二次型可记作 f=xTAxf=xTAx，其中 AA为对称阵。设有二次型 f=xTAxf=xTAx，如果对任何 x≠0x≠0，都有 f>0f>0，则称 ff 为正定二次型，并称对称矩阵 AA 是正定的；如果对任何 x≠0x≠0，都有 fff 为负定二次型，并称对称矩阵 AA 是负定的。正定矩阵一定是非奇异的。对阵矩阵 AA 为正定的充分必要条件是： AA 的特征值全为正。由此还可得到下面这个推论：对阵矩阵 AA 为正定的充分必要条件是 AA 的各阶主子式都为正。如果将正定矩阵的条件由 xTAx>0xTAx>0 弱化为 xTAx≥0xTAx≥0，则称对称矩阵 AA 是半正定的。

泰勒展开式与Hessian矩阵

主页君已经在之前的《图像处理中的数学原理详解》系列文章中介绍过泰勒展开式了。但那个时候我们给出的是一元函数的泰勒公式，不妨先来复习一下。设一元函数 f(x)f(x) 在包含点x0x0的开区间 (a,b)(a,b) 内具有 n+1n+1 阶导数，则当 x∈(a,b)x∈(a,b) 时，有

f(x)=f(x0)+f′(x0)(x−x0)+f′′(x0)2!(x−x0)2+⋯+f(n)(x0)n!(x−x0)n+Rn(x)f(x)=f(x0)+f′(x0)(x−x0)+f″(x0)2!(x−x0)2+⋯+f(n)(x0)n!(x−x0)n+Rn(x) 其中 Rn(x)=f(n+1)(ξ)(n+1)!(x−x0)n+1Rn(x)=f(n+1)(ξ)(n+1)!(x−x0)n+1 并且，ξξ 在 xx 和 x0x0之间，这被称作是拉格朗日余项。上式被称为 f(x)f(x) 的 nn 阶泰勒公式。在不需要余项的精确表达式时，Rn(x)Rn(x) 可以记作 o[(x−x0)n]o[(x−x0)n]，这被称为是皮亚诺余项。

现在我们把上面这个结论稍微做一下推广，从而给出二元函数的泰勒公式。设二元函数 z=f(x,y)z=f(x,y) 在点 (x0,y0)(x0,y0) 的某一邻域内连续且有直到 n+1n+1 阶的连续偏导数，则有

f(x,y)=f(x0,y0)+[(x−x0)∂∂x+(y−y0)∂∂y]f(x0,y0)+12![(x−x0)∂∂x+(y−y0)∂∂y]2f(x0,y0)+⋯++1n![(x−x0)∂∂x+(y−y0)∂∂y]nf(x0,y0)+1(n+1)![(x−x0)∂∂x+(y−y0)∂∂y](n+1)f[x0+θ(x−x0),y0+θ(y−y0)]f(x,y)=f(x0,y0)+[(x−x0)∂∂x+(y−y0)∂∂y]f(x0,y0)+12![(x−x0)∂∂x+(y−y0)∂∂y]2f(x0,y0)+⋯++1n![(x−x0)∂∂x+(y−y0)∂∂y]nf(x0,y0)+1(n+1)![(x−x0)∂∂x+(y−y0)∂∂y](n+1)f[x0+θ(x−x0),y0+θ(y−y0)] 其中，0[(x−x0)∂∂x+(y−y0)∂∂y]f(x0,y0)[(x−x0)∂∂x+(y−y0)∂∂y]f(x0,y0) 表示 (x−x0)fx(x0,y0)+(y−y0)fy(x0,y0)(x−x0)fx(x0,y0)+(y−y0)fy(x0,y0) 记号 [(x−x0)∂∂x+(y−y0)∂∂y]2f(x0,y0)[(x−x0)∂∂x+(y−y0)∂∂y]2f(x0,y0) 表示 (x−x0)2fxx(x0,y0)+2(x−x0)(y−y0)fxy(x0,y0)+(y−y0)2fyy(x0,y0)(x−x0)2fxx(x0,y0)+2(x−x0)(y−y0)fxy(x0,y0)+(y−y0)2fyy(x0,y0) 一般地，记号 [(x−x0)∂∂x+(y−y0)∂∂y]mf(x0,y0)[(x−x0)∂∂x+(y−y0)∂∂y]mf(x0,y0) 表示 ∑p=0mCpm(x−x0)p(y−y0)(m−p)∂mf∂xp∂y(m−p)∣∣∣(x0,y0)∑p=0mCmp(x−x0)p(y−y0)(m−p)∂mf∂xp∂y(m−p)|(x0,y0) 当然，我们可以用一种更加简洁的形式来重写上面的和式，则有 f(x,y)=∑k=0n1k![(x−x0)∂∂x+(y−y0)∂∂y]kf(x0,y0)+1(n+1)![(x−x0)∂∂x+(y−y0)∂∂y](n+1)f[x0+θ(x−x0),y0+θ(y−y0)],(0Rn(x,y)Rn(x,y)采用上面这种形式时称为拉格朗日余项，如果采用皮亚诺余项，则二元函数的泰勒公式可以写成 f(x,y)=∑k=0n1k![(x−x0)∂∂x+(y−y0)∂∂y]kf(x0,y0)+o(ρn)f(x,y)=∑k=0n1k![(x−x0)∂∂x+(y−y0)∂∂y]kf(x0,y0)+o(ρn) 特别低，对于一个多维向量 XX, 以及在点 X0X0 的邻域内有连续二阶偏导数的多元函数 f(X)f(X) ，可以写出该函数在点 X0X0 处的（二阶）泰勒展开式 f(X)=f(X0)+(X−X0)T∇f(X0)+12!(X−X0)T∇2f(X0)(X−X0)+o(∥X−X0∥2)f(X)=f(X0)+(X−X0)T∇f(X0)+12!(X−X0)T∇2f(X0)(X−X0)+o(‖X−X0‖2) 其中，o(∥X−X0∥2)o(‖X−X0‖2) 是高阶无穷小表示的皮亚诺余项。而 ∇2f(X0)∇2f(X0) 显然就是一个Hessian矩阵。所以上述式子也可以写成 f(X)=f(X0)+(X−X0)T∇f(X0)+12(X−X0)TH(X0)(X−X0)+o(∥X−X0∥2)f(X)=f(X0)+(X−X0)T∇f(X0)+12(X−X0)TH(X0)(X−X0)+o(‖X−X0‖2)

我们已经知道对于 nn 元函数 u=f(x1,x2,⋯,xn)u=f(x1,x2,⋯,xn)在点 MM 处有极值，则有

∇f(M)={∂f∂x1,∂f∂x2,⋯,∂f∂xn}M=0∇f(M)={∂f∂x1,∂f∂x2,⋯,∂f∂xn}M=0 也就是说这是一个必要条件，而充分条件则由上一节中之结论给出。

【本文地址】

公司简介

联系我们