12ma-e3-8.4 线性回归的误差性质

哎呀,这次12MA-E3-8.4相关变量,给我们讲讲一元线性回归的误差性质吧。你知道,这次内容简短,主要是帮我们更深入地理解上一节里的经验回归方程。其实那个方程里还藏着关于误差的代数意义呢。咱们就把那个方程组重新写出来看看,把求导之后的形式找出来。不过别急着化简,先把等号右边的常数 -2 给除掉。 这下子,咱们就得到了一个非常简洁而且直观的方程组了。第一个方程表示经验回归直线会让误差的和为0,也可以说是平均值为0。从代数上来说,我的模型虽然有时候高估数据,有时候低估数据,但我没有系统性地高估或者低估数据。 所以我的预测直线大概是均匀地把数据分成了两份。刚才说过1号方程求出来的形式要求直线过均值点,所以预测误差的平均值就自然变成了0。再看一下图4.1里的三个符合条件的回归直线吧。是不是挺直观的?第二个方程就有点复杂了。它表示经验回归直线会让误差用x加权之后的和仍然为0。你仔细想想就能明白,这个式子要求误差的波动在x轴方向上平衡和均匀分布。比如图4.1里的三个回归直线就很好地说明了这一点。 图4.1A在左边积攒了很多负误差,右边又积攒了很多正误差;图4.1C也是如此。只有图4.1B里面的误差在x轴方向上均匀分布。 原因很简单,因为我们给误差加权了啊。比如在图4.1A里,左边有很多负误差的时候它们相对的影响就变小了,右边有很多正误差的时候它们相对的影响就变大了。这样一来,图4.1A的结果就会大于0。图4.1C也是一样。 所以说误差的加权平均值等于0的意思就是误差应该尽量在x轴方向上均匀地分布。有了这个条件,我们就能从无数个过均值点的直线中选择一条特定斜率了。 比如在上面三幅图中选图4.1B对应的那个斜率。这就确定了唯一的经验回归直线啦!咱们也顺带掌握了它误差的性质。 你有没有觉得这次内容还挺有趣的?