椭球方程的矩阵形式

2023-09-08 07:22| 来源: 网络整理| 查看: 265

为了简便起见，这里的椭球指的是椭球面，如果还要包含椭球内部，则将等于号改为小于等于即可。

标准椭球方程的几何意义

考虑一个二维平面 $\mathbb{R}^2$ 上的椭球方程（此时就是一个椭圆方程）是 $\frac{x_1^2}{r_1^2}+\frac{x_2^2}{r_2^2}=1$ 其在坐标轴 $x_1,x_2$ 上的半轴分别是 $r_1,r_2(r_1,r_20)$ 。事实上，椭圆（椭球）可以被看作是一个单位圆（单位球）在坐标轴上进行伸缩后得到的几何图形：假设我们对坐标单位进行拉伸， $x_1,x_2$ 坐标轴上的单位长度从 $1$ 分别改成 $r_1,r_2$ ，由此形成一个新的矩形坐标系，新坐标系的坐标 $(m,n)$ 在原坐标系的坐标是 $(r_1m,r_2n)$ ，于是，上面的椭圆方程实际上就是新坐标系中的一个单位圆。对于 $\mathbb{R}^3$ 空间中的一个标准直角坐标系的椭球 $\sum_{i=1}^3\frac{x_i^2}{r_i^2}=1$ 同样可以视作是一个新坐标系下的单位球，这个坐标系是将原标准直角坐标系的三个坐标轴的单位长度从 $1$ 分别改成 $r_1,r_2,r_3$ 而得到的。

现在我们给出一个 $\mathbb{R}^n$ 空间中在标准直角坐标系的一个标准椭球的方程，其在 $x_i$ 坐标轴方向的半轴长是 $r_i(r_i0)$ ： $\sum_{i=1}^n\frac{x_i^2}{r_i^2}=1$ 若记对角矩阵 $\Lambda$ 和坐标向量 $x$ 分别是 $\Lambda=\begin{bmatrix} r_1^2\\ &r_2^2\\ &&\ddots\\ &&&r_n^2 \end{bmatrix},\quad x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}$ 则上面的标准椭球方程是 $x^T\Lambda^{-1} x=1$ 但是该椭球方程仅仅表示中心点在原点、伸缩方向沿标准直角坐标系的坐标轴的椭球，要表示一个任意的椭球，需要使用坐标系的变换。

正交矩阵和坐标系旋转

考虑 $\mathbb{R}^n$ 的标准单位正交基 $E=[e_1,e_2,\cdots,e_n]$ ，现在将这个坐标系按原点进行任意旋转，得到一个新的坐标系 $V$ 。设原来的单位正交向量 $e_i$ 经旋转变为 $v_i$ ，则可以得到新坐标系的单位标准正交基 $V=[v_1,v_2,\cdots,v_n]$ 。我们可以用 $e_i$ 将 $v_i$ 表示出来 $\begin{cases} v_1=\sum_k a_{k1}e_k=a_{11}e_1+a_{21}e_2+\cdots+a_{n1}e_n\\ v_2=\sum_k a_{k2}e_k=a_{12}e_1+a_{22}e_2+\cdots+a_{n2}e_n\\ \quad\vdots\\ v_n=\sum_k a_{kn}e_k=a_{1n}e_1+a_{2n}e_2+\cdots+a_{nn}e_n\\ \end{cases}$ 或者使用矩阵形式写出 $[v_1,\dotsc,v_n]=[e_1,\dotsc,e_n]\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n}\\ a_{21}&a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ a_{n1}&a_{n2}&\cdots&a_{nn} \end{bmatrix}$ 也即 $V=EA$ 设空间中任意一个点 $P$ ，它在 $E$ 和 $V$ 这两个坐标系中的坐标分别是 $x=[x_1,x_2,\dotsc,x_n]^T$ 和 $h=[h_1,h_2,\dotsc,h_n]^T$ ，因为无论如何选取坐标系，点在空间的位置是不会发生变化的，于是就应该有 $Vh=Ex$ 因为 $Vh=(EA)h=E(Ah)=Ex$ 且 $E$ 是可逆矩阵，因此有 $x=Ah$ 如果将矩阵 $A$ 写成列向量形式 $A=[a_1,a_2,\dotsc,a_n]$ ，则有 $v_i=Ea_i$ 。因为 $v_i$ 彼此单位正交，这就意味着 $v_i^Tv_j=(Ea_i)^T(Ea_j)=a_i^T(E^TE)a_j=a^T_ia_j=\begin{cases}1&i=j\\0&i\neq j\end{cases}$ 则 $\begin{split} A^TA&=\begin{bmatrix}a^T_1\\a^T_2\\\vdots\\a^T_n\end{bmatrix}[a_1,a_2,\dotsc,a_n]\\ &=\begin{bmatrix}a_1^Ta_1&a_1^Ta_2&\cdots&a_1^Ta_n\\ a_2^Ta_1&a_2^Ta_2&\cdots&a_2^Ta_n\\ \vdots&\vdots&\ddots&\vdots\\ a_n^Ta_1&a_n^Ta_2&\cdots&a_n^Ta_n \end{bmatrix}\\ &=\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1\end{bmatrix}=E_n \end{split}$ 即 $A$ 是可逆矩阵，且 $A^{-1}=A^T$ ，可见 $A$ 是正交矩阵（同样 $A^T$ 也是正交矩阵）。于是我们有 $h=A^{-1}x=A^Tx$ 这个等式的意义是，将一个标准直角坐标系绕原点任意旋转后，坐标从 $x$ 变为 $h$ ，两个坐标之间的关系。如果将标准直角坐标系任意旋转，得到两个坐标系，对应的正交矩阵是 $A_1,A_2$ ，则在标准直角坐标系下坐标为 $x$ 的点在两个坐标系的下的坐标分别是 $h_1,h_2$ ，应当满足关系 $h_1=A_1^Tx,\;h_2=A_2^Tx$ 消去 $x$ ，就有 $h_2=A_2^T(A_1h_1)=(A_2^TA_1)h_1$ 易证明，两个正交矩阵的乘积仍然是正交矩阵，于是我们得出结论：空间中任意单位正交坐标系绕原点旋转后形成新的坐标系，同一个点在两个坐标系下的坐标可以使用一个正交矩阵来联系。

任意椭球的矩阵方程

我们讨论的椭球方程是以标准直角坐标系为参考系的。 $n$ 维空间中的任意椭球可以通过如下步骤得到：

在标准直角坐标系中构造一个中心点在原点的 $n$ 维单位超球将该超球在各个坐标轴方向进行伸缩，得到一个正规的椭球将该椭球绕原点进行旋转，使得它与给定的椭球方向一致将该椭球平移至给定椭球的位置

正规椭球的矩阵方程已知是 $x^T\Lambda^{-1}x=1$ 现在将该椭球绕原点进行旋转，但是这等价于将坐标系绕原点旋转，然后在新坐标系中构造出一个正规椭球，设新坐标系中椭球的坐标为 $h$ ，于是该新坐标系中的正规椭球方程是 $h^T\Lambda^{-1}h=1$ 现在，根据上一节的结论，我们知道如果该旋转后的椭球在原坐标系下的坐标为 $x$ ，那么存在一个正交矩阵 $A$ 使得 $h=A^Tx$ ，于是旋转后的椭球在原坐标系下的方程是 $(A^Tx)^T\Lambda^{-1}(A^Tx)=x^T(A\Lambda^{-1}A^T)x=x^TPx=1$ 现在假设所求椭球的中心坐标是 $x_c$ ，我们只需要将椭球平移至该中心点即可，于是我们得到了任意椭球的方程 $f(x)=(x-x_c)^TP(x-x_c)=1$ 我们现在来关注核心的矩阵 $P=A\Lambda^{-1}A^T$ 其中 $A$ 是正交矩阵，根据上一节和本节的推导，我们知道 $A$ 的列向量代表了旋转后椭圆的各个伸缩方向的单位矢量，而 $\Lambda^{-1}=\mathrm{diag}(1/r_1^2,1/r_2^2,\cdots,1/r_n^2)$ ，显然 $\lambda_i=r_i^2$ 是 $\Lambda$ 的特征值，从而 $\sqrt{\lambda_i}$ 就是对应方向的伸缩系数。

首先，易得 $P$ 是一个对称矩阵： $P^T=(A\Lambda^{-1}A^T)^T=A\Lambda^{-1}A^T=P$ 。此外，若 $a_i$ 是正交矩阵 $A$ 的第i个列向量， $\xi_i$ 是对角阵 $\Lambda^{-1}$ 的第 $i$ 行 $i$ 列元素（因此也是第 $i$ 个特征值），我们断言： $\xi_i$ 是 $P$ 关于特征向量 $a_i$ 的特征值。为了证明这一点，我们有 $\begin{split} &(P-\xi_iI)a_i\\ =&(A\Lambda^{-1}A^T-\xi_iI)a_i\\ =&(A\Lambda^{-1}A^T-\xi_iAA^T)a_i\\ =&A(\Lambda^{-1}-\xi_iI)A^Ta_i\\ \end{split}$ 因为 $A^Ta_i=\begin{bmatrix}a_1^T\\a_2^T\\\vdots\\a_n^T\end{bmatrix}a_i=\begin{bmatrix}a_1^Ta_i\\a_2^Ta_i\\\vdots\\a_n^Ta_i\end{bmatrix}=\begin{bmatrix}\delta_{1i}\\\delta_{2i}\\\vdots\\\delta_{ni}\end{bmatrix}=e_i$ 其中 $\delta_{ij}=\begin{cases}1&i=j\\0&i\neq j\end{cases}$ 是Kronecker符号。因此 $(\Lambda^{-1}-\xi_iI)A^Ta_i=(\Lambda^{-1}-\xi_iI)e_i=\eta_i$ 此处 $\eta_i$ 表示矩阵 $(\Lambda^{-1}-\xi_iI$ 的第 $i$ 个列向量，但显然根据定义 $(\Lambda^{-1}-\xi_iI$ 的第 $i$ 个列向量为 $0$ ，从而 $(\Lambda^{-1}-\xi_iI)A^Ta_i=0$ ，由此可知 $(P-\xi_iI)a_i=0$ 从而命题可证。

现在，我们已经知道对角矩阵 $\Lambda^{-1}$ 的对角线元素就是 $P$ 的特征值，但是显然特征值都是正值，因此 $P$ 是一个正定矩阵，又因为 $P$ 还是对称是，因此 $P$ 是一个对称正定矩阵。如果我们规定 $P$ 是一个实对称正定矩阵，那么在线性代数中有如下定理：

实对称正定矩阵一定可以相似对角化。

换句话说，给定一个 $n$ 阶实对称正定矩阵 $P$ ，方程 $x^TPx=1$ 就对应 $n$ 维欧几里得空间中的一个椭球。我们对 $P$ 一定可以相似对角化，于是得到 $n$ 个单位正交特征向量，向量代表了椭球伸缩的方向，而对应的特征值的平方根倒数就是该方向的伸缩系数。而给定一个椭球，我们也可以按照上面的构造方法构造出一个实对称正定矩阵 $P$ 。因此我们得到了椭球方程的矩阵形式。

当 $P=I$ 时，此时椭球退化为一个球。

考虑一个例子，我们希望求得一个椭圆，其中心位于 $(x_c,y_c)$ 点，半长轴为 $a$ ，半短轴为 $b$ ，长轴沿 $\theta$ 角的方向，从而短轴沿着 $\theta+\pi/2$ 的方向，现在想求得该椭圆的方程。我们选取长轴和短轴方向的单位向量 $u_1=(\cos\theta,\sin\theta)$ 以及 $u_2=(-\sin\theta,\cos\theta)$ ，显然它们彼此正交；在这两个方向上的缩放系数分别是 $a,b$ ，于是可以构造矩阵 $A=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{bmatrix},\Lambda^{-1}=\begin{bmatrix} \frac{1}{a^2}\\&\frac{1}{b^2}\end{bmatrix}$ 于是就有 $P=A\Lambda^{-1}A^T=\begin{bmatrix}\frac{\cos^2\theta}{a^2}+\frac{\sin^2\theta}{b^2}&\frac{\sin\theta\cos\theta}{a^2}-\frac{\sin\theta\cos\theta}{b^2}\\\frac{\sin\theta\cos\theta}{a^2}-\frac{\sin\theta\cos\theta}{b^2}&\frac{\sin^2\theta}{a^2}+\frac{\cos^2\theta}{b^2}\end{bmatrix}$ 所以该椭圆的方程是 $\begin{bmatrix}x-x_c\\y-y_c\end{bmatrix}^T\begin{bmatrix}\frac{\cos^2\theta}{a^2}+\frac{\sin^2\theta}{b^2}&\frac{\sin\theta\cos\theta}{a^2}-\frac{\sin\theta\cos\theta}{b^2}\\\frac{\sin\theta\cos\theta}{a^2}-\frac{\sin\theta\cos\theta}{b^2}&\frac{\sin^2\theta}{a^2}+\frac{\cos^2\theta}{b^2}\end{bmatrix}\begin{bmatrix}x-x_c\\y-y_c\end{bmatrix}=1$ 拆解开就是 $\begin{split}&\left(\frac{\cos^2\theta}{a^2}+\frac{\sin^2\theta}{b^2}\right)(x-x_c)^2+\left(\frac{\sin^2\theta}{a^2}+\frac{\cos^2\theta}{b^2}\right)(y-y_c)^2+\\\cdots&\;\;2\left(\frac{\sin\theta\cos\theta}{a^2}-\frac{\sin\theta\cos\theta}{b^2}\right)(x-x_c)(y-y_c)=1\end{split}$

椭球是一个凸集

如果 $P$ 是一个实对称正定矩阵，那么可以对角化分解为 $A\Lambda A^T$ ，其中 $A$ 的正交矩阵（ $A^TA=AA^T=I$ ），其列向量是 $P$ 的特征向量，而 $\Lambda$ 则是由对应特征值组成的对角矩阵 $\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\dotsc,\lambda_n)$ 。因为是正定矩阵，因此对角阵的对角线元素必然是正值。于是我们可以定义 $P$ 的开方为 $P^{\frac{1}{2}}=A\Lambda^{\frac{1}{2}}A^T$ 其中 $\Lambda^{\frac{1}{2}}=\mathrm{diag}(\sqrt{\lambda_1},\sqrt{\lambda_2},\dotsc,\sqrt{\lambda_n})$ 。这样的定义是合理的，因为 $P^{\frac{1}{2}}P^{\frac{1}{2}}=(A\Lambda^{\frac{1}{2}}A^T)(A\Lambda^{\frac{1}{2}}A^T)=A\Lambda A^T=P$ 此外定义 $P^{-\frac{1}{2}}=(P^{\frac{1}{2}})^{-1}=(A\Lambda^{\frac{1}{2}}A^T)^{-1}=A\Lambda^{-\frac{1}{2}}A^T$ 其中 $\Lambda^{-\frac{1}{2}}=\mathrm{diag}(\frac{1}{\sqrt{\lambda_1}},\frac{1}{\sqrt{\lambda_2}},\dotsc,\frac{1}{\sqrt{\lambda_n}})$ 容易验证 $\Lambda^{-\frac{1}{2}}\Lambda^{-\frac{1}{2}}=\Lambda^{-1}$ 我们已经知道 $\mathbb{R}^n$ 空间中的任意椭球的方程是 $K(x)=(x-x_c)^TP(x-x_c)$ 现在将其进行变换 $\begin{split} K(x)&=(x-x_c)^T(P^{\frac{1}{2}}P^{\frac{1}{2}})(x-x_c)\\ &=(x-x_c)^T((P^{\frac{1}{2}})^TP^{\frac{1}{2}})(x-x_c)\\ &=[P^{\frac{1}{2}}(x-x_c)]^T[P^{\frac{1}{2}}(x-x_c)]\\ &=u^Tu=B(u)\leqslant 1 \end{split}$ 其中 $u=P^{\frac{1}{2}}(x-x_c)$ 进一步得到 $x=P^{-\frac{1}{2}}u+x_c$ 我们现在来看，集合 $B=\{u|u^Tu\leqslant1\}$ 表示一个单位球，定义映射 $x=f(u)=P^{-\frac{1}{2}}u+x_c$ 我们有 $f(B)=\{f(u)|u\in B\}=\{x|(x-x_c)^TP(x-x_c)\leqslant 1\}=K$ 因此，给定一个这样的映射 $f$ ，它可以将一个圆心在原点的单位球唯一映射为一个椭球。因为 $B$ 是一个凸集，如果 $f$ 是一个仿射映射，那么根据凸优化理论， $B$ 的象 $K$ 也是一个凸集。

一个映射 $f(x)$ 是一个仿射映射，如果可以写为 $f(x)=L(x)+b$ ，其中 $b$ 是一个常量，而 $L(x)$ 是一个线性函数（即 $L(ax+by)=aL(x)+bL(y)$ ）。显然 $f$ 是一个仿射函数，因此椭球 $K$ 就是一个凸集。

椭球矩阵正定性和椭圆包含关系

椭球球心在原点的一个任意椭球的方程已知是 $x^TPx\leqslant1$ ，其中 $P\in S^n_{++}$ ，表示 $P$ 是一个 $n$ 阶对称正定矩阵。设椭球 $\mathcal{A}:x^TAx\leqslant1$ 和椭球 $\mathcal{B}:x^TBx\leqslant1$ （ $A,B\in S^n_{++}$ ），我们断言： $B^{-1}-A^{-1}\in S^n_{+}\iff A-B\in S^n_{+}\iff\mathcal{A}\subseteq\mathcal{B}$ 其中 $S^n_{+}$ 表示所有对称半正定矩阵的集合，它是一个半正定锥。

我们的证明通过如下过程 $\begin{array}{rlr} \mathcal{A}\subseteq\mathcal{B}&\iff \forall x\in\mathcal{A}\Rightarrow x\in\mathcal{B}&(1)\\ &\iff x^TAx\leqslant1\Rightarrow x^TBx\leqslant1&(2)\\ &\iff x^TBx\leqslant x^TAx&(3)\\ &\iff x^T(A-B)x\geqslant0&(4)\\ &\iff (A-B)\in S^n_{+}&(5)\\ &\iff B^{-1}-A^{-1}\in S^n_+&(6) \end{array}$ 我们首先来看 $(2)\iff(3)$ ：其中 $(3)\Rightarrow(2)$ 是显然成立的。为了证明 $(2)\Rightarrow(3)$ ，也就证明：如果 $x^TAx\leqslant1$ 能推出 $x^TBx\leqslant1$ ，那么就有 $x^TBx\leqslant x^TAx$ ，我们使用反证法，假设存在一个 $x_0$ ，满足 $x_0^TBx_0x_0^TAx_0$ ，注意到 $A$ 是对称正定矩阵，即二次型是一个正实数，即 $t=x_0^TAx_00$ ，于是我们就有 $\left(\frac{x_0}{\sqrt{t}}\right)^TB\left(\frac{x_0}{\sqrt{t}}\right)1$ ，但是，因为 $x^TAx\leqslant1\Rightarrow x^TBx\leqslant1$ 的逆否命题是 $x^TBx1\Rightarrow x^TAx1$ ，这就意味着 $\left(\frac{x_0}{\sqrt{t}}\right)^TA\left(\frac{x_0}{\sqrt{t}}\right)1$ ，进而有 $x_0^TAx_0t=x_0^TAx_0$ ，这显然是不可能的，所以这样的 $x_0$ 是不存在的，命题可证。

我们接下来说明 $(5)\iff(6)$ 。我们依次证明下面的命题：

如果 $A$ 是对称可逆矩阵，那么 $A^{-1}$ 也是对称可逆矩阵： $E=AA^{-1}=(AA^{-1})^T=(A^{-1})^TA^T=(A^{-1})^TA$ 从而 $A^{-1}=(A^{-1})^T$ 如果 $A$ 是对称（半）正定/（半）负定矩阵，那么 $A^{-1}$ 也是对称（半）正定/（半）负定矩阵。这是因为 $\forall x$ ： $\begin{split}x^TA^{-1}x&=x^TA^{-1}AA^{-1}x\\&=\left((A^{-1})^Tx\right)^TA(A^{-1}x)\\&=(A^{-1}x)^TA(A^{-1}x)\\&=x'^TAx'\\&\lesseqgtr 0\end{split}$ 称 $A,B$ 合同，如果存在可逆矩阵 $P$ 使得 $P^TAP=B$ 。我们说，合同变换不改变矩阵的(半）正定/（半）负定性。这是因为 $\forall x$ ： $\begin{split}x^TBx&=x^TP^TAPx\\&=(Px)^TA(Px)\\&=x'^TAx'\\&\lesseqgtr0\end{split}$ 两个(半）正定矩阵（或两个（半）负定矩阵）的和仍然是（半）正定矩阵（或（半）负定矩阵），其证明是显然的。

一般的，我们有 $\begin{split}B^{-1}-A^{-1}&=A^{-1}(A-B)B^{-1}\\&=A^{-1}(A-B)(A^{-1}+B^{-1}-A^{-1})\\&=A^{-1}(A-B)A^{-1}+A^{-1}(A-B)(B^{-1}-A^{-1})\\&=A^{-1}(A-B)A^{-1}+A^{-1}(A-B)B^{-1}(A-B)A^{-1}\end{split}$ 由于 $A,B$ 都是对称正定矩阵，从而 $A^{-1},B^{-1}$ 也是对称正定矩阵， $A-B$ 是对称矩阵，于是 $B^{-1}-A^{-1}=\underbrace{(A^{-1})^T(A-B)(A^{-1})}_{M}+\underbrace{\left((A-B)A^{-1}\right)^TB^{-1}\left((A-B)A^{-1}\right)}_{N}$ 如果 $A-B$ 是半正定矩阵，那么 $M,(A-B)$ 两个矩阵合同，故而 $M$ 是半正定矩阵；此外， $(A-B)A^{-1}$ 是可逆矩阵，因此 $N,B^{-1}$ 合同，从而 $N$ 正定。于是可得 $B^{-1}-A^{-1}$ 是半正定的。同理，如果 $B^{-1}-A^{-1}$ 半正定，那么 $A-B$ 也半正定。

【本文地址】

公司简介

联系我们