机器学习——线性回归-技术文章-肥仔教程网

数据集为：

样本向量：

拟合函数：

最小二乘法

使用平方误差来定义损失函数：

向量表示：

求导：

其中又称为伪逆。对于行满秩或者列满秩的，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法。得到于是：

线性回归的几何解释

假设我们的试验样本是张成的维空间（满秩的情况）：而模型可以写成，也就是超平面上单位向量的线性组合，而最小二乘法就是说希望和这个超平面的距离越小越好，于是它们的差与超平面正交：

噪声为高斯分布的 MLE

对于一维的情况，记，那么。代入极大似然估计中：

这个表达式和最小二乘估计得到的结果一样。

权重先验也为高斯分布的 MAP

取先验分布。于是：

我们将会看到，超参数的存在和下面会介绍的 Ridge 正则项可以对应，同样的如果将先验分布取为Laplace 分布，那么就会得到和 L1 正则类似的结果。

正则化

在实际应用时，如果样本容量较小，很可能造成过拟合，对这种情况，我们有下

面三个解决方式：

1. 增加数据量

2. 特征选择（降低特征维度）如 PCA 算法。

3. 正则化

正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚），常用的两种正则化框架如下。

下面对最小二乘损失函数分别分析这两者的区别。

L1 Lasso

L1正则化可以引起稀疏解。

从最小化损失的度看，由于 L1 项求导在0附近的左右导数都不是0，因此更容易取到0解。

从另一个方面看，L1 正则化相当于：

我们已经看到平方误差损失函数在空间是一个椭球，因此上式的解就是椭球和的切点，因此更容易相切在坐标轴上。

L2 Ridge

可以看到，这个正则化参数和前面的 MAP 结果不谋而合。利用2范数进行正则化不仅可以使得模型选择较少的参数，同时可以应对不可逆的情形。

小结

线性回归模型是最简单的模型，但是麻雀虽小，五脏俱全，在这里，我们利用最小二乘误差得到了闭式解。同时也发现，在噪声为高斯分布时，MLE 的解等价于最小二乘误差，而增加了正则项后，最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解，加上 L1 正则项后，等价于 Laplace 噪声先验。

传统的机器学习方法或多或少都有线性回归模型的影子：

1. 线性模型往往不能很好地拟合数据，因此有三种方案克服这一劣势：

1. 对特征的维数进行变换，例如多项式回归模型就是在线性特征的基础上加入高次项。

2. 在线性方程后面加入一个非线性变换，即引入一个非线性的激活函数，典型的如感知机。

3. 对于一致的线性系数，我们进行多次变换，这样同一个特征可以不仅仅被单个系数影响，例如多层感知机（深度前馈网络）。

2. 线性回归在整个样本空间都是线性的，我们可以修改这个限制，在不同区域引入不同的线性或非线性，例如线性样条回归和决策树模型。

3. 线性回归中使用了所有的样本，但是对数据预先进行加工学习的效果可能更好（所谓的维数灾难，高维度数据更难学习），例如 PCA 算法和流形学习。

肥仔教程网