把矩阵看作一个算子——从几何角度解释对称矩阵的三个最重要性质

对称矩阵是沿对角线对称的矩阵。它是一个自伴算子(self-adjoint operator)(把矩阵看作是一个算子并研究其性质确实是一件大事)。虽然我们不能直接从对称性中读出几何属性,但我们可以从对称矩阵的特征向量中找到最直观的解释,这将使我们对对称矩阵有更深入的了解。
常见的例子是单位矩阵。一个重要的例子是:
  • 对称矩阵的一个例子
然而,虽然定义简单如斯,但却意义非凡。在这篇文章中,我们将看一看它们的重要属性,直观地解释它们,并介绍其应用。
厄米特矩阵(The Hermitian matrix)是对称矩阵的复扩展,这意味着在厄米特矩阵中,所有元素都满足:
厄米特矩阵的共轭转置与自身相同。因此,它具有对称矩阵所具有的所有性质。
  • 厄米特矩阵的一个例子
在这篇文章中,我主要讨论的是实数情况,即对称矩阵,以使分析变得简单一些,同时在数据科学中,我们遇到的也大都是实矩阵,因为我们要处理现实世界的问题。

对称矩阵的最重要的性质

本节将介绍对称矩阵的三个最重要的性质。它们涉及这些矩阵的特征值特征向量的行为,这是区别对称矩阵和非对称矩阵的基本特征
性质1. 对称矩阵有实数特征值
这可以很容易地用代数法证明(正式的、直接的证明,而不是归纳法、矛盾法等)。首先,快速回顾一下特征值和特征向量。
  • 矩阵A的特征向量是,在A作用于它之后,方向不变的向量。方向没有改变,但向量大小可以改变。
  • 实数特征值给我们提供了线性变换中的拉伸或缩放信息,不像复数特征值,它没有 "大小"。
向量被缩放的比例是特征值,我们用λ表示。因此我们有:
  • 式1.1
证明是相当容易的,但有一些重要的线性代数知识,所以我们还是要一步一步地来。
1.1通过x的共轭转置xᴴ得到:
  • 式1.2
需要注意的是,λ是一个标量,这意味着涉及λ的乘法是可交换的。因此,我们可以把它移到xᴴ(x的转置,上标H可能不显示)的左边:
  • 式1.3
xᴴx是一个欧几里得范数( Euclidean norm),其定义如下:
  • 公式1.4
在二维欧几里得空间中,它是一个坐标为(x_1,...,x_n)的向量的长度。然后我们可以把公式1.3写成:
  • 公式1.5
由于共轭转置(算子H)与普通转置(算子T)的原理相同,我们可以利用xᴴA=(Ax)ᴴ的特性。
  • 公式1.6
(Ax)ᴴ等于什么?这里我们将再次使用Ax = λx的关系,但这次(Ax)ᴴ将留给λ的复共轭,在λ上加一横表示共轭。
  • 式1.7
我们在式1.3中见过xᴴx,代欧几里得范数后得到:
  • 式1.8
这导致了λ和它的复共轭相等:
  • 式1.9
只有在一种情况下,式1.9才有效,即λ是实数。这样一来,我们就完成了证明。
性质2. 特征值所对应的特征向量是正交的
这个证明也是一个直接的形式证明,但很简单。首先我们需要清楚目标,即:
  • 式1.10
考虑一个对称矩阵A,x_1和x_2是A的特征向量,对应于不同的特征向量(我们需要这个条件的原因将在稍后解释)。根据特征值和对称矩阵的定义,我们可以得到以下公式:
  • 式1.11和式1.12
现在我们需要证明式1.10。让我们试着把x_1和x_2放在一起-。在左边用 (Ax₁)ᵀ乘以x₁ᵀ:
  • 式1.13
在式1.13中,除了对称矩阵的特性外,还用到了另外两个事实。
  1. 矩阵乘法符合结合律(可以用结合律运算)
  2. 矩阵-标量乘法是可交换的(可以自由移动标量)。
然后,由于点积是可交换的,这意味着x₁ᵀx₂和x₂ᵀx₁是等价的,所以我们有:
  • 式1.14
其中x_1∙x_2表示点积。如果λ_1≠λ_,那么x_1∙x_1=0,这意味着这两个特征向量是正交的。如果λ_1 = λ_2,则有两个不同的特征向量对应于同一个特征值。由于特征向量在(A-λI)的零空间(表示为N(A-λI)),当一个特征向量对应于多个特征向量时,N(A-λI)的维数大于1。在这种情况下,我们对这些特征向量有无限多的选择,我们总是可以选择它们是正交的。
显然,有些情况下,实数矩阵有复数特征值。这发生在旋转矩阵上。为什么会这样呢?假设Q是一个旋转矩阵。我们知道,特征向量在被Q作用后不会改变方向。但如果Q是一个旋转矩阵,如果x是一个非零向量,x怎么可能不改变方向呢?结论是,特征向量必须是复数(好好想一想吧)。
二维空间中的旋转矩阵R(θ)如下所示:
  • 旋转矩阵
R(θ)将一个向量逆时针旋转一个角度θ,它是一个具有复数特征值和特征向量的实矩阵。
性质3. 对称矩阵总是可对角化的(谱定理)
这也与对称矩阵的其他两个特性有关。这个定理的名字可能让人困惑。事实上,一个矩阵的所有特征值的集合被称为谱( spectrum)。另外,我们可以这样想。
特征值-特征向量对告诉我们,在给定的线性变换之后,一个向量在哪个方向上被扭曲。
如下图所示,经过变换后,在v_1的方向上,图形被拉伸了很多,但在v_2的方向上却没有很大的拉伸。
一个可对角线化的矩阵意味着存在一个对角线矩阵D(对角线以外的所有元素都是零),使得P-¹AP=D,其中P是一个可逆矩阵。我们也可以说,如果一个矩阵可以写成A=PDP-¹的形式,那么该矩阵就是可对角的。
分解通常不是唯一的,但只有D中对角线上的元素的排列和P中特征向量的标量乘法才是唯一的。另外我们需要注意的是,无论矩阵是否对称,对角线化都等同于找到特征向量和特征值。然而,对于非对称矩阵,D不一定是正交矩阵。
这两个定义是等价的,但可以有不同的解释(这种分解使得求矩阵的幂非常方便)。第二个定义,A=PDP-¹,告诉我们A如何被分解,与此同时,第一个定义,P-¹AP=D,是告诉我们A可以被对角化。它告诉我们,有可能将标准基(由单位矩阵给出)与特征向量对齐(align)。这是由特征向量的正交性决定的,这在性质2中显示。
这个 "将标准基与特征向量对齐 "听起来非常抽象。我们需要思考这个问题:矩阵变换对单位基做了什么?
由基α = {v_1,…,v_n}组成的矩阵将一个向量x从标准基变换到由基α构成的坐标系,我们用Aα表示这个矩阵。因此,在对角化的过程中(P-¹AP=D),P将一个向量从标准基送入特征向量,A对其进行缩放,然后P⁻¹将该向量送回标准基。从向量的角度来看,坐标系与标准基对齐。
这种对齐方式如图1.16所示,本例中使用的矩阵为:
  • 式1.17
其中V是一个列向量长度为1的矩阵,每一个都对应于对角线矩阵中的特征值。至于计算,我们可以让Matlab中的eig来完成。
这个性质直接遵循谱定理( spectral theorem):
如果A是厄米特矩阵,存在一个由A的特征向量组成的V的正态基,每个特征向量都是实数。
该定理直接指出了将一个对称矩阵对角化的方法。为了直接证明这个性质,我们可以使用矩阵大小(维度)的归纳法。。

正定性

这些性质什么时候有用?甚至在正式研究矩阵之前,它们已经被用于解决线性方程组很长时间了。把矩阵看成是运算子,线性方程的信息就储存在这些运算子中,矩阵可以用来研究函数的行为。
除了对称性之外,矩阵还可以有一个更好的性质就是正定性。如果一个对称矩阵是正定的,它的所有特征值都是正的。如果它的所有特征值都是非负的,那么它就是一个半正定矩阵。对于一个正定矩阵,很明显要求它是对称的,因为性质1,因为只有当一个数字是实数时,问它是正数还是负数或有多大才有意义。
特征值、特征向量和函数行为
这方面的一个很好的应用是海赛矩阵(Hessian matrix),我们将以此为例来证明使用矩阵来分析函数行为。当我们试图找到一个局部极值时,发现海赛矩阵是正定的将非常有用。海赛矩阵是一个由实数函数的二阶偏微分组成的矩阵。形式上,海赛矩阵被定义为:
我们称H(x)为f的海赛矩阵,它是一个n乘n的矩阵。它与以下内容相同:
这对函数的行为有什么影响?我们来看看一个超级简单的例子。考虑一下函数:
海赛矩阵的计算方法如下:
  • 式2.3
由于它是一个对角矩阵,并且(对角线上的元素之和)等于特征向量之和,我们可以立即看到其中一个特征值是2,另一个是-2。它们对应于特征向量v₁ = [1, 0]ᵀ和v₂ = [0, 1]ᵀ。这个矩阵是对称的,但不是正定的。因此,在整个ℝ²上没有局部极值,我们只能在x=0,y=0点上找到一个鞍点。这意味着在特征值为正的v_1方向上,函数增加,而在特征值为负的v_2方向上,函数减少。该函数的图像如下所示:
现在我们改变符号,将函数改为:
特征向量保持不变,但所有的特征向量都变成了正数。这意味着,在v_1的方向和v_2的方向上,函数都在增长。因此,可以找到局部最小值在x=0,y=0处,f(x,y)=0,这也是全局最小值。该图为:

总结

矩阵在许多领域都有广泛的应用。在处理矩阵时,经常会遇到正定义性、特征向量、特征值、对称矩阵等概念。在这篇文章中,介绍了对称(厄米特)矩阵的三个最重要的性质,它们与矩阵的特征向量和特征值有关。这些性质是以几何学方式解释的,但也包括一些代数证明。最后,介绍了一个使用矩阵来分析函数行为的例子。
(0)

相关推荐