肥仔教程网

SEO 优化与 Web 开发技术学习分享平台

【机器学习】线性代数-特殊矩阵

来源:人工智能大讲堂本文约2500字,建议阅读5分钟本文我们将介绍特殊矩阵,以便在听到“正定矩阵所有特征值都为正”时,您不会感到陌生。



在许多文献中都会出现诸如“由于矩阵是对称的,它具有正交归一的特征向量”之类的语句。出现这样的话就好像抓住了救命稻草一样。在线性代数中,有一些具有易于分析和操作特性的特殊矩阵。它们可能具有特定的特征值或特征向量之间具有某种特殊关系。它们具有使操作变得更加容易的规则。幸运的是,有方法将一个矩阵分解为这些“更容易”的矩阵。



操作复杂度的降低提高了可扩展性。然而,即使这些矩阵是特殊的,它们也绝不是罕见的。在机器学习和许多应用中,我们一直在处理它们。在本文中,我们将介绍它们,以便在听到“正定矩阵所有特征值都为正”时,您不会感到陌生。


对角矩阵


对角矩阵 S 的所有非对角元素均为零。



许多矩阵分解方法都能使其中一个分解矩阵是对角矩阵。由于矩阵仅包含对角元素,因此有时我们会用向量来表示它。



一个通用矩阵的逆矩阵不易计算。但是找到对角矩阵的逆矩阵很容易。我们可以将对角元素替换为 1/m。



此外,如果其中一个矩阵是对角矩阵,则矩阵乘法要简单得多。但是,当任何对角元素等于零或对角矩阵不是方阵时,其逆矩阵不存在。但是,伪逆(将 0 的逆保持为 0)可以在一些方法中用作替代。


正交矩阵


正交矩阵 Q 是一个满足以下条件的方阵。



Q 的所有列 (v, …, v , …) 都正交归一,即 v v =0 (i≠j),而且 v 都是单位向量。



这听起来像是一个严格的要求,但对于一些矩阵,如对称矩阵,在分解期间我们可以选择我们的特征向量为正交归一向量。


下面的矩阵是正交矩阵。



And



和对角矩阵一样,它的逆矩阵非常容易计算,即正交矩阵的逆矩阵是它的转置。这是正交矩阵非常实用的一个关键原因。


Proof:



如果我们将 x 乘以一个正交矩阵,那么 x 中存在的误差不会被放大。因为正交矩阵不会对向量进行缩放,而只进行旋转,这种行为对于维护数值稳定性非常有用。



关系 AA=I 简化了许多计算,如投影。例如,我们可以从 Ax = b 开始。



投影向量可以简化为



其中 q 是 Q 的第 i 列。


对称矩阵


如果一个矩阵的转置等于其本身,则它是对称矩阵。



例如,



对称矩阵是线性代数和机器学习中最重要的矩阵之一。在机器学习中,我们经常使用矩阵来保存 f(v , v)。这样的函数通常是对称的,f(x, y) = f(y, x),因此相应的矩阵是对称的。例如,在机器学习中,f 可以测量数据点之间的特征距离或计算特征的协方差。



对称矩阵具有如下性质


  • 对称矩阵 S 是一个 n×n 的方阵。
  • 它的逆矩阵也是对称的。
  • S 的所有特征值都是实数(不是复数)。
  • 即使有重复的特征值,我们也可以选择 n 个 S 的特征向量为正交归一向量。
  • AA 和 AA 都是对称的(通常 AA ≠ AA)。在机器学习中,使用中心化数据的协方差矩阵就处于这种形式。


  • 如果 A 的列线性无关,则 AA 可逆。
  • 每个对称矩阵 S 都可以用由 S 的正交归一特征向量 v 组成的 Q 和包含所有特征值的对角矩阵 Λ 进行对角化(分解)。



上述方程可以重写为



其中 v 是单位向量。因此,特征值 λ 的项支配着上述每个项的重要性。实际上,如果它太小,我们可以完全舍弃相应的项 λvv。


这种分解特性和“S 有 n 个正交特征向量”是对称矩阵的两个重要属性。


正交归一特征向量


特征向量并不是唯一的。但通常,我们可以“选择”一组特征向量以满足一些特定条件。如前所述,对称矩阵的特征向量可以选择为正交归一向量。如果 S 是一个对称矩阵,它的特征值 λ 和 μ 满足以下条件。



Proof



从这个条件出发,如果 λ 和 μ 有不同的值,等价性强制内积为零。因此,x 和 y 是正交的,并且很容易将它们归一化为单位长度,即正交归一。这证明了如果至少它们对应的特征值不同,我们可以选择 S 的特征向量为正交向量。但即使有重复的特征值,对于对称矩阵来说,这仍然是成立的。


对于一个 n×n 对称矩阵,我们总是可以找到 n 个独立的正交归一特征向量。最大的特征值为



为了找到最大值,我们将 r(x) 的导数设为 0。经过一些变换,可以证明



即如果 x 是具有最大特征值的特征向量,则 r(x) 达到最高比率。通过归纳,我们可以推断出,我们可以通过一个与前一个特征向量正交的特征向量找到下一个最高的特征值。这只是证明的高层描述。


谱定理


让我们总结一下。每个 n×n 对称矩阵 S 都有 n 个实特征值 λ,以及 n 个正交归一特征向量 v。



这些特征值可以形成一个对角矩阵 Λ,如 diag(λ)。我们还可以将特征向量 v 连接起来形成 V,即



我们将 V 重命名为 Q。因为 Q 是正交的,所以它是可逆的,Q = Q^1。因此,对称矩阵 S 可以分解为



这就是谱定理。因为找到转置比找到逆矩阵要容易得多,所以对称矩阵在线性代数中非常有用。


正定矩阵


正定矩阵具有所有正特征值。如果一个矩阵是可逆的,那么它的行列式不为零。由于行列式等于所有特征值的乘积,因此正定矩阵的行列式是正数。因此,它是可逆的。


下面的式子计算了状态为 x 的系统的能量。如果 M 是正定矩阵,它保证了能量保持正值,除非 x 是零。



因此,如果能量是正数,相应的 M 应该是正定的。这听起来不寻常,但在实际问题中,许多矩阵都是正定的。


有许多等价条件可以用来测试正定性。如果以下任何一个测试为真,则矩阵 M 是正定的:


1. 所有特征值 > 0,



2. 所有左上角行列式 > 0,



3. 所有主元 > 0,



4.除了在 x = 0 时以外,能量 > 0,



5. 可以通过 AA 构造 M,且 A 的列线性无关。



验证所有特征值都是正数需要很多工作。因此,条件 2 或 3 是更常见的测试。例如,正主元意味着正特征值(或反之亦然)。另一方面,如果我们用上述任何一个测试证明一个矩阵是正定的,我们保证它具有以上所有的属性。


除了正定矩阵,我们还有正半定矩阵、负定矩阵和负半定矩阵。正半定矩阵将上述所有的“>”条件替换为“≥”。例如,它的特征值大于或等于 0。负定矩阵和负半定矩阵是正定矩阵和正半定矩阵的相反。


在这一节中,我们将证明一些上述属性。如果 M 是正定的,所有的 λ 都是正数。因此,相应状态 x 的计算能量是正数(除了 x = 0)。



如果 M 由 AA 组成,根据能量测试,M 是正半定的。



这证明了 AA 和 AA 都是正半定的,如果 A 的列是线性无关的,它们都是正定的。


最小值


在微积分中,我们将函数 f 的一阶导数设为零,以找到其临界点。然而,这样的点可能是最大值、最小值或鞍点。许多机器学习模型将代价函数表达为二次形式 xAx。


知道这个函数是否是凸函数很重要。因为如果它是凸函数,我们就知道局部最小值也是全局最小值。如果 A 是正定的,这个二次函数是凸函数。



对于任何函数 f,我们计算下面的 Hessian 矩阵。如果 A 是正定的,相应的点是局部最小值。



协方差矩阵


在机器学习中,我们非常关注属性之间的相关性。下图展示了体重和身高之间的正相关关系。



在机器学习中,我们用协方差矩阵 Σ 来建模这种关系。



协方差矩阵是正半定的。


参考资料

Gilbert Strang 的《线性代数导论》
Kaare Petersen 和 Michael Pedersen 的《矩阵手册》

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言