12ma-e3-8.4 线性回归的误差性质

哎呀，这次12MA-E3-8.4相关变量，给我们讲讲一元线性回归的误差性质吧。你知道，这次内容简短，主要是帮我们更深入地理解上一节里的经验回归方程。其实那个方程里还藏着关于误差的代数意义呢。咱们就把那个方程组重新写出来看看，把求导之后的形式找出来。不过别急着化简，先把等号右边的常数 -2 给除掉。这下子，咱们就得到了一个非常简洁而且直观的方程组了。第一个方程表示经验回归直线会让误差的和为0，也可以说是平均值为0。从代数上来说，我的模型虽然有时候高估数据，有时候低估数据，但我没有系统性地高估或者低估数据。所以我的预测直线大概是均匀地把数据分成了两份。刚才说过1号方程求出来的形式要求直线过均值点，所以预测误差的平均值就自然变成了0。再看一下图4.1里的三个符合条件的回归直线吧。是不是挺直观的？第二个方程就有点复杂了。它表示经验回归直线会让误差用x加权之后的和仍然为0。你仔细想想就能明白，这个式子要求误差的波动在x轴方向上平衡和均匀分布。比如图4.1里的三个回归直线就很好地说明了这一点。图4.1A在左边积攒了很多负误差，右边又积攒了很多正误差；图4.1C也是如此。只有图4.1B里面的误差在x轴方向上均匀分布。原因很简单，因为我们给误差加权了啊。比如在图4.1A里，左边有很多负误差的时候它们相对的影响就变小了，右边有很多正误差的时候它们相对的影响就变大了。这样一来，图4.1A的结果就会大于0。图4.1C也是一样。所以说误差的加权平均值等于0的意思就是误差应该尽量在x轴方向上均匀地分布。有了这个条件，我们就能从无数个过均值点的直线中选择一条特定斜率了。比如在上面三幅图中选图4.1B对应的那个斜率。这就确定了唯一的经验回归直线啦！咱们也顺带掌握了它误差的性质。你有没有觉得这次内容还挺有趣的？