关于回归分析中的置信区间和预测区间

不少初学者往往混淆均值的置信区间和个体的预测区间（prediction interval），在有的统计软件中，同时给出回归线的置信区间和预测区间，致使有的初学者搞不懂它们有什么区别。

其实二者很容易区分，置信区间是针对因变量均值的区间，而预测区间是针对因变量个体值的区间。不难理解，针对均值的置信区间肯定要窄一些，而具体想预测某一个体值，那区间肯定要宽，因为误差会很大。

比如，让你预测一个高中班级中学生的平均身高，跟让你预测该班级中具体某一个学生的身高，你觉得哪个误差更大呢？对于一个班级的均值，即使你什么信息都不知道，估计预测的也差不到哪儿去，而让你预测班中的张三同学的身高，那你可能就不知所措了。

（1）均值的置信区间

线性回归中，我们假定，对于每一特定的x值，其对应的y值应该是来自一个服从某一均值和标准差的分布。例如，调查温度与手足口发病率的关系，温度=10℃，假定其对应的手足口发病率是来自一个服从均值为10（1/10万），标准差为4（1/10万）的总体分布。

当我们调查这一数据时，得到的是这一总体分布中的某一随机数值（所以说y是随机变量）。根据样本数据建立的回归方程，可以估计出当x等于某一数值时，y的估计值（也就是y的总体均值的估计值）。比如根据方程式：

发病率=-0.011+0.995*温度

可以估计出，温度=10℃时，对应的手足口发病率的均值估计为9.94（1/10万）。

由于是总体均值的估计，那就必然会有估计的误差（标准误），这一标准误是可以计算出来的（公式略，格式不好调整，感兴趣的等本书出版后看书）。

因此根据标准误、均值估计值，便可以估计置信区间。这一置信区间反映的是样本估计yi的均值的这一范围有多大的信心包含了总体均值。

如月份温度=10℃时，手足口发病率均值的95%置信区间为（6.64,16.25）。这说明，对于温度=10℃这样的月份，我们有95%的信心认为，（6.64,16.25）这一区间包含了手足口发病率的总体均值。其暗含的意思就是（尽管不是很严谨），有95%的信心认为，对于温度=10℃的所有月份，它们对应的手足口发病率的均值在（6.64,16.25）之间。这句话虽然不是很严谨，但其隐含的意思其实就是如此。

（2）个体的预测区间

如果我们已知某一特定的x值，想根据该值预测对应的具体y值，也就是预测某个具体值，这就是对个体的预测。例如，调查了多个地区1-12月的气温和手足口发病率，已知11月的温度=10℃，据此预测某一地区11月手足口发病率是多少。这跟均值的置信区间不同，它不是预测所有地区的11月份的平均发病率，而是预测这一个地区11月的发病率。因此其标准误必然更大，当然也可以计算出来（公式略，格式不好调整，感兴趣的等本书出版后看书）。

由于标准误大了，该区间必然要比均值的置信区间要宽。例如，已知某地11月的温度=10℃，如果要预测这一地区11月份的发病率，其95%置信区间为（-1.55,21.44）。可以发现这一区间远远比均值的置信区间要宽得多。

下图给出了置信区间预测区间，可以看出置信区间（红色区域）较窄，而预测区间（蓝色区域）要宽得多。

发表回复取消回复

要发表评论，您必须先登录。

数据分析与处理

课程章节

关于回归分析中的置信区间和预测区间

发表回复 取消回复

Modal title

发表回复取消回复