急:线性回归置信区间的线性方程


用minitab做下面二组数据的回归线性分析;
可以得出回归方程,但各位大虾谁能告诉我置信区间(置信度:95%或99%)的线性方程;
就从minitab的图来看应该不是一次方程,为了这个问题还专门找到MINITAB公司的人求助,
现在仍未解决。

(附带解析:我们公司之所以要求致信区间的线性方程,是用来换算以下两列数据的规格;
A/B是两组对同样产品采取不同测试方法的结果,其中A组数据有上下规格,我们想通过回归分析求出B组大概多少规格可以和A组的规格相对应。
西班牙公司的做法,分别用2种方法测试25个不同的产品,对应关系如下,A类数据由于有、上下规格,可以算出cpk,估算不良率,以及这个规格的置信度,然后用Minitab线性回归处理改两列数据,得到回归曲线以及两条置信区间曲线(红色虚线),对应一个B值,这时对应估算的A可以有线性方程值,上置信区间值,下置信居间值,3个值都在A已定的规格内的B值的范围就是我们要求的换算规格;
解析和我的问题关系不是很大,我们现在面临的问题是置信区间线性方程无法知晓,请高手们指点!)


A 组       B组
102.4        18.8
98.1        18.7
96.6        18.2
94.2        18.8
94.5        18.3
105        20.9
96.5        19.2
84.1        18.4
98.4        18.4
89.6        17.6
94.5        19.5
95.2        18.3
96.1        17.6
101.3        18.7
95.8        18.3
103.7        20.4
98.7        18.9
103.4        19.1
96.7        18.2
90.7        18.7
105.2        20.1
96.5        18.2
108.1        20.3
91.4        18.2
101.3        19.9


新图像.JPG


我也来说两句 查看全部回复

最新回复

  • 欧阳静茹 (2008-5-28 22:58:54)

    因为太复杂了,初步思路是:
    根据置信区间那个公式,整理曲线X与Y的函数关系式,然后将关系式带根号的留在一边,进行去根号处理,然后对方程式两边进行整理,用以判断X与Y的关系是什么曲线类型,然后根据曲线类型进行适当的变换,变换后再进行线性回归,最终可得两支曲线的曲线方程。过程比较复杂。如果你通过观察即可判定曲线类型,那就可以直接变换来处理。

    [ 本帖最后由 欧阳静茹 于 2008-5-29 00:38 编辑 ]
  • aiyinsitan (2008-5-29 08:31:47)

    实验了对数,倒数,开方,没有成功。
  • high1998 (2008-5-29 09:50:38)

    仔细看了LZ的问题,我的理解是:LZ希望找到两个不同测试方法间的等价规范. 使用回归法只是手段,不是目的.  

    (如果LZ一定要找置信区间的方程,我也不会,我就没有能力帮助你了。)

    基于以上理解, LZ的问题变成了在A组和B组数据间对应关系.具体说就是希望找到A组数据的中心值和上下规范在B组数里对应的数值分别是多少.

    看了一下A组数据,是正态分布,B组数据不是正态分布,数据的分布有点弯,(按正态分布的数据概率对比,B组数据在中心值附近的数据偏小,在两端的偏大,这可能与样本量大小有关,也可能是B测量系统在整个测量范围内的非线性引起的,也许还有其他原因,需要进一步调查求证

    虽然B组数据的正态分布的P值小于0.05,但考虑到实际的B组数据都在按正态分布拟合的95%置信区间内,在“大概"估计时,会引起一点误差,但不会太大,在没有更好的办法替代它之前,仍然有使用价值。所以将B组数据仍然按照正态分布的方法处理,分别求出中心值B_center和B_sigma值. 将B组数据按A组数据同样倍数的sigma值扩展,就是近似的范围。由于B组数据的非正态,这个方法虽然有一点误差,但在实际应用中,足够了。


    A data .JPG


    B data.JPG

  • yxj_5 (2008-5-29 22:38:40)

    楼上的平均值+sigma值是个不错的方法,我暂时拿去给雷诺回复了,谢谢!周末我把西班牙人做的回归拿来给大家看看,看能不能参祥出来!谢谢楼上各位的意见!
  • Jeff_wang (2008-5-29 23:51:02)

    QUOTE:

    原帖由 high1998 于 29-5-2008 09:50 发表
    仔细看了LZ的问题,我的理解是:LZ希望找到两个不同测试方法间的等价规范. 使用回归法只是手段,不是目的.  

    (如果LZ一定要找置信区间的方程,我也不会,我就没有能力帮助你了。)

    基于以上理解, LZ的问题变成了在 ...
    谈一下个人看法。
    B组数据的Sigma值受到来自两个方面的影响:
    一个是A组数据的Sigma值,如果A与B严格的线性相关,则B的Sigma等于A_Sigma乘以回归方程的斜率;另一个是残差,即回归不能解释的变差部分。
    这样B组数据的实际Sigma值肯定比理论上绝对的线性关系的要大,因此我认为直接用B_sigma的倍数设置B方法规格界限不妥,它夸大了理论规格。
    各位是否同意?
  • high1998 (2008-5-30 11:12:17)

    QUOTE:

    原帖由 Jeff_wang 于 2008-5-29 23:51 发表

    谈一下个人看法。
    B组数据的Sigma值受到来自两个方面的影响:
    一个是A组数据的Sigma值,如果A与B严格的线性相关,则B的Sigma等于A_Sigma乘以回归方程的斜率;另一个是残差,即回归不能解释的变差部分。
    这样B组 ...
    我只是提出一个临时的解决办法应急.在以后数据多了,可以使用"拔靴法"求得比较准的SIGMA值.

    我们希望的是B组数据也能与A组数据的分布一样,符合正态,这样就可以比较准地计算B_sigma,毕竟我们计算sigma的前提假设是数据正态分布.可是现实是B组数据不正态,当数据不正态时,套用正态的方法计算,必然会带来误差. 关键看误差的大小在实际使用中是否被接受。我们的着眼点在现场的适用性.

    从LZ前面的回归图看,R-sq不高,说明能用回归方程解释的比例并不高,使用这样的回归方程来推导出SIGMA,误差也不会小. 那么在如何才能快速地提出一个暂时可以使用的方案就迫在眉睫了.

    从LZ对A组的数据处理看,产品只是从正常产品中抽取,并未为了求出相关方程而使用较大的取值范围的样品来将回归方程做的准些。适当地选取回归实验的取值范围是提高回归方程的一个有效方法。
  • wang168 (2008-5-30 21:49:47)

    给楼主参考
    1 本例楼主是希望探所B测试方法是否可代替A测试法,若可取代则以A法的规格推导出B法的规格
    2 依据minitab 新图像.jpg Fitted line plot 结果 虽然回归式可以成立,但是R-sq(adj)=46.7%,此表式欲使用B法去解释(代替)A法结果只达46.7%过低
    3 楼主的问题置信区间方程式,可以从minitab的help档 Fitted Line Plot 下 Fits and residuals 的 Confidence interval 公式求得
  • yxj_5 (2008-6-01 20:52:32)

    Sh----数组A;
    Sn----数组B;
    声明:西班牙人的原始数据和我的数据不同,原始数据我也找不到;
    根据我的猜测:他们先算出A组的制程能力指数,根据能力指数算出置信度,
                   用两组数据回归,得到回归方程以及回归上下限方程后,
                 给出一个B组的数值,可以算出3个不同A值,由于A值的规格已定,
                  算出3个A值都在规格内的B值就是B的规格;----见图2;
                

    大家认为呢?


    1.JPG


    2.JPG


    3.JPG


    4.JPG

  • yxj_5 (2008-6-01 21:08:49)

    回复168的:
    我查过minitab的公式,但是具体代入计算不知道怎么代入;
    Yh  \Xh,不知道是什么东东,汗......
      
    Confidence interval
    The range in which the estimated mean response for a given set of predictor values is expected to fall. The interval is defined by lower and upper limits, which Minitab calculates from the confidence level and the standard error of the fits.  

    The formula is:

      Yh +  t(1 - a /2; n - p) * s(Yh)

    where  a = chosen alpha value, n = number of observations, p = number of parameters, and

    s(Yh) = sqrt[MSE(X'h(X'X)-1Xh)] = sqrt[X'hs2{b}Xh]. MSE = mean square error and s2{b} = variance of the coefficients
  • Jeff_wang (2008-6-02 00:25:34)

    正如我所说,即使是西班牙的数据中回归模型还是比较理想的,这种方法仍然相对夸大了B组数据的sigma值,直接的结果就是Cp, Cpk, Pp, Ppk均比对应的A组变大了不少。不知道这是一种可接受的差异吗?
  • Jeff_wang (2008-6-02 01:19:59)

    在minitab帮助中没找到楼主列出的公式。在一本资料中找到CI的计算公式如下:


    CI of Regression.jpg


    估计楼主公式中Xh和Yh分别代表给定的x值和y预测值的均值(拟合值)。