当一元因子X(或多元Xi的组合)存在重复(仿行)时,选择失拟检验则会将残差误差项分解为失拟(Lack of fit)和纯差(Pure error)两部分,并使用F检验判断是否存在显著的失拟。若p值小于0.05,则说明存在显著的失拟,回归模型不适合。此时可考虑引入高次项或对X或Y做变换。若不存在显著失拟,则说明回归模型适合,不需对回归议程调整,但同时需结合R-sq和R-sq(adj)综合判断。若这两个值高且接近,则回归模型能充分说明流程,不高则说明对流程变差解释不充分,需考虑是否存在其它显著的影响因子。
最新回复
renshanlu (2008-6-20 22:06:33)
maxtor (2008-6-20 22:53:38)
Jeff_wang (2008-6-21 11:33:38)
maxtor (2008-6-21 13:38:37)
请帮我看一下以下案例,失拟检验表明拟合良好,因子也显著,S很小,R-Sq也还可以,但残差图显示回归方程不合适。
回归分析: 松香 与 拉拔力
回归方程为
松香 = 0.641 + 0.0228 拉拔力
自变量 系数 系数标准误 T P
常量 0.64070 0.01691 37.88 0.000
拉拔力 0.022760 0.002663 8.55 0.000
S = 0.00899657 R-Sq = 80.2% R-Sq(调整) = 79.1%
方差分析
来源 自由度 SS MS F P
回归 1 0.0059103 0.0059103 73.02 0.000
残差误差 18 0.0014569 0.0000809
失拟 14 0.0013159 0.0000940 2.67 0.177
纯误差 4 0.0001410 0.0000353
合计 19 0.0073672
12 行不含仿行
原始数据.JPG
minitab.JPG
Jeff_wang (2008-6-22 01:09:29)
仿行是自变量重复,而这组数据中拉拔力只有几个值有重复,而松香每个值均重复一次(仿行=2)。
使用Fitted line plot,分别选择线性、二次、三次模型,除得到不同R-sq和R-sq(adj)外,观察Session窗,还可以看到下面的列表,帮助选择回归模型。
Source DF Seq SS F P
Linear 1 0.0059103 73.0225 0.000
Quadratic 1 0.0004596 7.8343 0.012
Cubic 1 0.0000036 0.0579 0.813
maxtor (2008-6-22 21:15:18)
那有没有可能“失拟检验表明拟合良好,因子也显著,S很小,R-Sq也还可以,但残差图显示回归方程不合适”的情况?
Jeff_wang (2008-6-24 23:08:36)
1. 数据量不充分,导致难以分辨残差的变化究竟来源于其它因子还是抽样带来的误差。
2. 对“R-sq还可以”的理解,毕竟回归解释不了所有的变差来源。除模型中保留的因子外,其它所有因子/项(包括收集数据分析的和未分析的,甚至包括测量变差)共同构成了残差来源。其中有些引起分布中心变动,有些引起分布范围变动,有些可能二者兼有。典型的残差分布异常如残差分布随自变量、拟合值或实验顺序忽在忽小、胖肚、喇叭形等。
3. 自变量与影响值之间的关系也许并非如模型假设,可能需要做一些变换计算。