关于失拟检验

在回归中有个失拟检验,当它的P值大于0.05时认为所选的回归方程适合描述x,y的关系。这样理解对吗?


未命名.JPG


我也来说两句 查看全部回复

最新回复

  • renshanlu (2008-6-20 22:06:33)

    当p值大于0.05时,表示你无法拒绝原假设。
  • maxtor (2008-6-20 22:53:38)

    那这里的原假设是“回归方程合适”,备择假设是“回归方程不合适”?失拟检验的作用是什么?
  • Jeff_wang (2008-6-21 11:33:38)

    当一元因子X(或多元Xi的组合)存在重复(仿行)时,选择失拟检验则会将残差误差项分解为失拟(Lack of fit)和纯差(Pure error)两部分,并使用F检验判断是否存在显著的失拟。若p值小于0.05,则说明存在显著的失拟,回归模型不适合。此时可考虑引入高次项或对X或Y做变换。若不存在显著失拟,则说明回归模型适合,不需对回归议程调整,但同时需结合R-sq和R-sq(adj)综合判断。若这两个值高且接近,则回归模型能充分说明流程,不高则说明对流程变差解释不充分,需考虑是否存在其它显著的影响因子。
  • maxtor (2008-6-21 13:38:37)

    多谢jeff。
    请帮我看一下以下案例,失拟检验表明拟合良好,因子也显著,S很小,R-Sq也还可以,但残差图显示回归方程不合适。

    回归分析: 松香 与 拉拔力
    回归方程为
    松香 = 0.641 + 0.0228 拉拔力
    自变量      系数  系数标准误      T      P
    常量     0.64070     0.01691  37.88  0.000
    拉拔力  0.022760    0.002663   8.55  0.000
    S = 0.00899657   R-Sq = 80.2%   R-Sq(调整) = 79.1%
    方差分析
    来源      自由度         SS         MS      F      P
    回归           1  0.0059103  0.0059103  73.02  0.000
    残差误差      18  0.0014569  0.0000809
      失拟        14  0.0013159  0.0000940   2.67  0.177
      纯误差       4  0.0001410  0.0000353
    合计          19  0.0073672
    12 行不含仿行


    原始数据.JPG


    minitab.JPG

  • Jeff_wang (2008-6-22 01:09:29)

    有一个疑问:LZ是否把X和Y搞反了?松香的量影响拉拔力还是反过来?
    仿行是自变量重复,而这组数据中拉拔力只有几个值有重复,而松香每个值均重复一次(仿行=2)。
    使用Fitted line plot,分别选择线性、二次、三次模型,除得到不同R-sq和R-sq(adj)外,观察Session窗,还可以看到下面的列表,帮助选择回归模型。
    Source        DF     Seq SS          F            P
    Linear         1     0.0059103    73.0225  0.000
    Quadratic    1     0.0004596     7.8343  0.012
    Cubic          1     0.0000036     0.0579   0.813

  • maxtor (2008-6-22 21:15:18)

    xy没有搞错。这是张弛《六西格玛分析工具》里的例子,我觉得有点问题所以拿出来咨询一下大家。
    那有没有可能“失拟检验表明拟合良好,因子也显著,S很小,R-Sq也还可以,但残差图显示回归方程不合适”的情况?
  • Jeff_wang (2008-6-24 23:08:36)

    LS说的这种情况也是存在的。我考虑出现的原因可能有:
    1. 数据量不充分,导致难以分辨残差的变化究竟来源于其它因子还是抽样带来的误差。
    2. 对“R-sq还可以”的理解,毕竟回归解释不了所有的变差来源。除模型中保留的因子外,其它所有因子/项(包括收集数据分析的和未分析的,甚至包括测量变差)共同构成了残差来源。其中有些引起分布中心变动,有些引起分布范围变动,有些可能二者兼有。典型的残差分布异常如残差分布随自变量、拟合值或实验顺序忽在忽小、胖肚、喇叭形等。
    3. 自变量与影响值之间的关系也许并非如模型假设,可能需要做一些变换计算。