📜  机器学习中的线性回归

📅  最后修改于: 2020-09-27 01:07:44             🧑  作者: Mango

机器学习中的线性回归

线性回归是最简单,最受欢迎的机器学习算法之一。这是一种用于预测分析的统计方法。线性回归可预测连续/实数或数值变量,例如销售额,薪水,年龄,产品价格等。

线性回归算法显示因变量(y)与一个或多个独立变量(y)之间的线性关系,因此称为线性回归。由于线性回归显示线性关系,这意味着它将找到因变量的值根据自变量的值如何变化。

线性回归模型提供了代表变量之间关系的倾斜直线。考虑下图:

在数学上,我们可以将线性回归表示为:

这里,

Y =因变量(目标变量)X =自变量(预测变量)a0 =线的截距(赋予附加的自由度)a1 =线性回归系数(每个输入值的比例因子)。 ε=随机误差

x和y变量的值是线性回归模型表示形式的训练数据集。

线性回归的类型

线性回归可以进一步分为两种算法:

  • 简单线性回归:
    如果使用单个自变量来预测数值因变量的值,则这种线性回归算法称为简单线性回归。
  • 多元线性回归:
    如果使用多个自变量来预测数值因变量的值,则这种线性回归算法称为多重线性回归。

线性回归线

表示因变量和自变量之间的关系的线性线称为回归线。回归线可以显示两种类型的关系:

  • 正线性关系:
    如果因变量在Y轴上增加而自变量在X轴上增加,则这种关系称为正线性关系。

  • 负线性关系:
    如果因变量在Y轴上减小而自变量在X轴上增大,则这种关系称为负线性关系。

寻找最合适的线:

使用线性回归时,我们的主要目标是找到最佳拟合线,这意味着预测值和实际值之间的误差应最小化。最佳拟合线的误差最小。

权重或线系数(a0,a1)的不同值给出了不同的回归线,因此我们需要计算a0和a1的最佳值以找到最佳拟合线,因此要使用成本函数进行计算。

成本函数-

  • 权重或线系数(a 0 ,a 1 )的不同值给出了不同的回归线,并且成本函数用于估计最佳拟合线的系数值。
  • 成本函数优化回归系数或权重。它测量线性回归模型的执行情况。
  • 我们可以使用成本函数来找到映射函数的准确性,该函数将输入变量映射到输出变量。此映射函数也称为假设函数

对于线性回归,我们使用均方误差(MSE)成本函数 ,该函数是在预测值和实际值之间发生的均方误差的平均值。它可以写成:

对于上述线性方程式,MSE可以计算为:

哪里,

N =观测总数Yi =实际值(a1xi + a0)=预测值。

残差:实际值和预测值之间的距离称为残差。如果观测点远离回归线,则残差将很高,因此成本函数将很高。如果散点接近回归线,则残差将很小,因此成本函数。

梯度下降:

  • 梯度下降用于通过计算成本函数的梯度来最小化MSE。
  • 回归模型使用梯度下降通过降低成本函数来更新线的系数。
  • 这是通过随机选择系数值来完成的,然后迭代更新值以达到最小成本函数。

模型性能:

拟合优度决定了回归线如何拟合观测值。从各种模型中找到最佳模型的过程称为优化。可以通过以下方法实现:

1. R平方方法:

  • R平方是一种确定拟合优度的统计方法。
  • 它以0-100%的尺度衡量因变量和自变量之间关系的强度。
  • R平方的高值确定预测值和实际值之间的差异较小,因此代表了一个好的模型。
  • 它也称为确定系数,或多元回归的多重确定系数
  • 可以从以下公式计算得出:

线性回归的假设

以下是线性回归的一些重要假设。这些是构建线性回归模型时的一些形式检查,可确保从给定的数据集中获得最佳结果。

  • 特征与目标之间的线性关系:
    线性回归假设因变量和自变量之间存在线性关系。
  • 特征之间很小或没有多重共线性:
    多重共线性意味着自变量之间的高度相关。由于多重共线性,可能很难找到预测变量和目标变量之间的真实关系。或者我们可以说,很难确定哪个预测变量正在影响目标变量,而哪个变量没有影响目标变量。因此,模型假设要素或自变量之间的多重共线性很小或没有。
  • 均方差假设:
    当自变量的所有值的误差项都相同时,同调是一种情况。具有同调性时,散点图中不应有清晰的数据模式分布。
  • 错误项的正态分布:
    线性回归假设误差项应遵循正态分布模式。如果误差项不是正态分布的,则置信区间将变得太宽或太窄,这可能会导致难以找到系数。
    可以使用qq图检查。如果绘图显示的是没有任何偏差的直线,则表示误差呈正态分布。
  • 无自相关:
    线性回归模型假设在误差方面没有自相关。如果误差项之间存在任何相关性,则将大大降低模型的准确性。如果残差之间存在依赖性,通常会发生自相关。