关于作者

网络推荐

banner

[问题]做回归分析时无法进行pure error test的原因?

上一篇 / 下一篇  2003-05-02 14:44:14

查看( 2431 ) / 评论( 27 )
在做回归分析时,
minitab的输出结果显示“Cannot do pure error test”
请问无法进行pure error test的原因是什么?
何种情况会出现这样的结果?

TAG:

八度空间 八进制 发布于2003-05-04 17:44:01
为什么有人看没人答呀?
谁能告诉我原因?
是不是我问的问题太简单???
bondwss007发布于2003-05-05 09:29:08
或许是太专业了吧,我看来很想回答,但对此我知道的的确有限,尽管我也参加过什么统计过程控制技术,但都是些皮毛,而且,我们服务业里面很少涉及了,当时我知道回归分析的应用很重要。
freddu发布于2003-05-12 13:43:37
No replicates的时候会出现cannot do pure error test.
同时对于pure error test的检验我们同样要考虑一下几点:
1,纯误差的自由度应为6或者更大。
2,如果为4获5则加以注意。
3,如果为3或者更小,则将其忽略。
4,同时P值)alpha.
这是对回归模型的匹配缺乏性检验。
当然回归模型的检验还有些其它的要求。同样要注意。
请BB专家批评指正!感谢,感谢!

Fred du
2003-5-12
八度空间 八进制 发布于2003-05-12 16:31:19
谢谢指教!
那什么时候是……No replicates?
我并没有进行任何特殊的操作
为什么有的时候可以有的时候不可以?
Oliven闲来小筑 欧立威 发布于2003-05-13 10:40:45
把你的回归实验数据及信息换些名称贴上来,让大家看看,如何?
八度空间 八进制 发布于2003-05-13 12:05:02
第一组数据是这样的:
x1        y1              
0.760        5.1        
0.780        6.2        
0.820        7.5        
0.815        7.0        
0.790        7.1        
0.785        6.8        
0.770        5.9        
0.765        5.0        
0.788        6.9        
0.769        5.9        
0.760        5.3               
0.780        6.4               
0.820        7.4               
0.815        7.0               
0.790        6.8               
0.785        6.1               
0.770        5.7               
0.765        5.2               
0.788        6.7               
0.769        6.1

分析结果是:

The regression equation is
y1 = - 21.3 + 35.2 x1

Predictor        Coef     SE Coef          T        P
Constant      -21.337       3.236      -6.59    0.000
x1                35.248       4.125       8.55    0.000

S = 0.3540      R-Sq = 80.2%     R-Sq(adj) = 79.1%

Analysis of Variance

Source            DF          SS          MS         F        P
Regression          1      9.1532      9.1532     73.02    0.000
Residual Error    18       2.2563      0.1253
  Lack of Fit        8       1.8413      0.2302      5.55    0.007
  Pure Error       10      0.4150      0.0415
Total                19     11.4095



第二组数据是这样的:
x2        y2
20        0.18
60        0.37
100        0.35
140        0.78
180        0.56
220        0.75
260        1.18
300        1.36
340        1.17
380        1.65

分析结果是:

The regression equation is
y2 = 0.069 + 0.00383 x2

Predictor        Coef     SE Coef          T        P
Constant       0.0692      0.1010       0.69    0.512
x2          0.0038288   0.0004378       8.75    0.000

S = 0.1591      R-Sq = 90.5%     R-Sq(adj) = 89.3%

Analysis of Variance

Source            DF          SS          MS         F        P
Regression         1      1.9351      1.9351     76.49    0.000
Residual Error     8      0.2024      0.0253
Total              9      2.1374

No replicates. Cannot do pure error test.
八度空间 八进制 发布于2003-05-14 09:59:07
算了,不等了!
没想到这个问题会漂了这么长时间没有结论!
不能进行 pure error test 的原因基本上有两个:
1.No replicates,也就是没有反复实施实验的run
2.Sum of squares for pure error is (nearly) zero.
Oliven闲来小筑 欧立威 发布于2003-05-14 11:38:32
别这么心急嘛,所以pure error 应该是反映子组内变异,自变量对因变量的影响效果的可重复性。

Source            DF          SS          MS         F        P
Lack of Fit        8       1.8413      0.2302      5.55    0.007
Pure Error       10      0.4150      0.0415

所以在你的第一组值中,是划分10个子组的,也就是说有两次设定的X1是相同的,X1共有10个水平。现在我提两个问题:

1.谁列一下Sum of squares for pure error (SS)以及MS协方差的计算过程
   SS=0.4150             MS= 0.04150
2.残差中 Lack of Fit 在回归图形中反映了一个什么样的变异?有精力的可  
   以同1一样计算一下。

好帖子,问题加3分!
shirley发布于2003-05-14 13:28:21
[quote]umbrellaxj 于 2003-5-12 04:31 PM 写道:
谢谢指教!
那什么时候是……No replicates?
我并没有进行任何特殊的操作
为什么有的时候可以有的时候不可以? [/quo
我理解replicates,就是重复做同一个试验的意思。不知道正确与否。请指正。
八度空间 八进制 发布于2003-05-14 14:31:59

QUOTE:

shirley 于 2003-5-14 13:28 写道:
我理解replicates,就是重复做同一个试验的意思。不知道正确与否。请指正。
说的很正确!

QUOTE:

umbrellaxj 于 2003-5-14 09:59 写道:
不能进行 pure error test 的原因基本上有两个:
1.No replicates,也就是没有反复实施实验的run
2.Sum of squares for pure error is (nearly) zero.

shirley发布于2003-05-14 15:19:01
1.lack of fit就是检验模型的拟合性。只要>0.05,一般表示拟合良好。
2。:p至于协方差:协方差在观察或测量同一平均时间的两个任意变量的变化的一个统计值。这个值等于这两变量的各自平均值偏离其相应值的乘积


----其实我知道的就是这些概念的东西,深入的还是要大师指导
八度空间 八进制 发布于2003-05-15 11:51:11

QUOTE:

oliven 于 2003-5-14 11:38 写道:
1.谁列一下Sum of squares for pure error (SS)以及MS协方差的计算过程
   SS=0.4150             MS= 0.04150
2.残差中 Lack of Fit 在回归图形中反映了一个什么样的变异?有精力的可  
   以同1一样计算一下
我只知道他们之间的关系式
SS Error=SS Lack of Fit +SS pure error
MS pure error =SS/DF
……
计算式我就不知道了

Lack of Fit =子组的平均值和回归式的差异/子组的内部和

以前教我的两个MBB都不愿意告诉公式,
很让我头疼,我觉得,只有知道了计算过程才能更好的理解工具的使用,
还请oliven老师和各位大师指点!
钻石灰尘发布于2003-05-15 12:05:49
Pure Error      应该是X-Xbar 然后再取平方和后处理的结果,而不是Y-Ybar的结果。应该反映的是X本身的分布。

但我不清楚为什么DF=(n-2)

[ 本贴由 钻石灰尘 于 2003-5-15 12:09 最后编辑 ]
Oliven闲来小筑 欧立威 发布于2003-05-15 17:01:15

QUOTE:

umbrellaxj 于 2003-5-15 11:51 AM 写道:
我只知道他们之间的关系式
SS Error=SS Lack of Fit +SS pure error
MS pure error =SS/DF
……
计算式我就不知道了

Lack of Fit =子组的平均值和回归式的差异/子组的内部和

以前教我的两个MBB都不愿意 ...
你遇到的2个MBB恰好都很懒,我本来想懒一下的,看来我这几根懒骨头还是太轻,哈哈!我想给大家解释一下这个东西,因为黑带在学习回归分析或方差分析时看到ANOVA矩阵总是会有所迷惑。

首先,我们看一下,在回归图形中这些参数的意义



我用EXCEL 计算的数据与MinTab 完全一样


[ 本贴由 oliven 于 2003-5-15 17:04 最后编辑 ]
八度空间 八进制 发布于2003-05-16 09:33:05
非常非常感谢oliven老师的指点!
使我更进一步的了解了回归分析!!
不知道计算公式,不去验算计算过程,永远也不可能真正的理解!
我昨天回家之后按照oliven老师指点的公式进行了验算,
大部分都已经了解了,
但还是再次发现掌握的知识中存在的问题点!

我计算的“FITS1”结果与真实的结果有差距,
我使用现有的回归式中的截距和斜率计算的结果,
与实际(和oliven老师的计算结果)都存在差异,
我知道我的计算肯定是由于四舍五入造成的偏差,
我想知道oliven老师是如何计算的,能够那么接近真实minitab结算结果?

钻石灰尘发布于2003-05-16 09:35:02
请问斑竹:lack of fit 的DF 如何计算?

通过推导,pure error 的自由度公式大概是(n - i) 20-10=10 也就是群内变化(对吗?)

lack of fit的自由度的公式是什么?

[ 本贴由 钻石灰尘 于 2003-5-16 09:38 最后编辑 ]
八度空间 八进制 发布于2003-05-16 12:58:09
还有……(刚才忘了说了)
问题2:
                                           _    =
关于Total的计算,您给的公式是Yij-Y
                                                   =
可是根据你实际计算的情况应该是Yij-Y

是计算公式有问题吗?
Oliven闲来小筑 欧立威 发布于2003-05-16 13:00:27

QUOTE:

钻石灰尘 于 2003-5-16 09:35 AM 写道:
请问斑竹:lack of fit 的DF 如何计算?

通过推导,pure error 的自由度公式大概是(n - i) 20-10=10 也就是群内变化(对吗?)

lack of fit的自由度的公式是什么?

[ 本贴由 钻石灰尘 于 2003-5-16 09:3 ...
Total DF=n-1=20-1=19
model DF一个回归模型占1个自由度=1
残差就剩19-1=18个自由度
残差中pure error是关于子组变异的,X共10个水平即子组占自由度10个Lack of fit就剩下18-10=8个自由度

另,U兄问:“计算的“FITS1”结果与真实的结果有差距,
我使用现有的回归式中的截距和斜率计算的结果,
与实际(和oliven老师的计算结果)都存在差异,
我知道我的计算肯定是由于四舍五入造成的偏差,
我想知道oliven老师是如何计算的,能够那么接近真实minitab结算结果?”
答案很简单,我就是用MINTAB计算的拟合值!哈哈!
Dragonhlj's X-Space Dragonhlj 发布于2003-06-12 23:07:32
看了U兄与O大师的解释,受益非浅,但还有一个小问题(可能太基础了,哈哈。)
    SESSION WINODW给出了两个F值:
   第一个F=ms of regression/ms of residule error
   第二个F=ms of lack of fit/ms of pure error
    各是什么意思,为什么要这么算?
    请各位大师指教。
   谢谢!
八度空间 八进制 发布于2003-08-25 09:57:40
为了帖子的完整性,特引用oliven大师回复!
相关讨论见: http://www.6sq.net/cdb/viewthread.php?tid=6473

为回答楼上Dragonhlj提问,下面引用oliven大师回复

QUOTE:

Originally posted by oliven at 2003-6-23 13:45:
大家前面的解释都是正确的理解。

因为ANOVA是一种运用F检验原理的方法,其F值是组间变异比组内变异,这两者是相对而言的,作为统计来说我们大部分可以掌握的都是组间的变异,比如说你是一名品管经理,你了解到装配工序的不良率是每天的日平均值,这就可以了,可是如果每天的每班每个时段的不良率变异非常大,那么其实可能你所了解的日平均值之间的差异相对每班每个时段的不良率变异很小,而这就说明天与天之间的差异其实是不明显的,也就是说是不显著的。

第一个F值其实是回归分析的ANOVA模型中将过程的总变异分为了两个部分:回归模型的变异和残差。所以这个F值是分析回归模型的变异(可测变异)与残差(不可测变异)的比较,如果F值越大,即P值越小,说明该线性回归模型整体来说越准确。

第二个F值是将残差(不可测变异)进一步分解为两个部分,即pure error 和Lack of Fit,这两个都是不可预测的变异。因为一个线性回归直线不可能在任何区域都拟合得很好,Lack of Fit 的误差是子组平均值到拟合点之间的误差,pure error 是子组内各点到子组平均值之间的误差,所以,在各子组的这个层面你可以理解Lack of Fit 的误差为组间变异,而pure error 是纯粹的组内变异,所以这里的F值就是在残差内部进一步的比较,如果该F值越小,即P值越大,说明残差中的pure error 越大,而Lack of Fi误差越小,模型的拟合度越好,非线性的影响越小。

你想想看,我们做个这样的实验,一个5元的线性回归模型,即回归方程中的预测因子有5个,你分别作两次,第一次用5个因素拟合出回归方程,第二次屏蔽掉一个因素用剩下的4个因素作回归,你就可以看到其中的变化。

举个例子说明这两个F值的区别。你知道欧姆定律的公式吧,U=I×R, 假设你在0摄氏度的恒等温度下和在100-200摄氏度的温度范围下,测试等电压下电流与电阻的变化,你猜猜看在这两种条件下会分别拟合出什么样的回归模型?
可以说,第一个模型和第二个模型的差别就在于,因为温度升高,分子运动加剧,所以必然的回归方程中的pure error 会大大增加,而第一个F的变化可能不大,而第二个F值就会变小很多,因为100-200之间的温度不是稳定的,所以数据一定会和拟合值之间产生更大的误差,甚至小范围的非线性,模型的拟合性变差很多。

所以你所说的第一个F值是解释模型的的整体的准确度或平均值的预测准确度。
而第二个F值是解释模型不准确度中,模型的拟合问题Lack of Fit 的误差是多大,产生数据的过程的不稳定的问题pure error 有多大,这是为了进一步解释第一个F值的。

我来说两句

(可选)