【回归曲线】如何通过变换的方式实现最佳拟和

在研究Y和X之间的关系的时候,我们的第一选择是使用散点图,利用相关系数r来判定相关关系,但是利用r来做定量判断往往很麻烦,于是引入了t检验的定量检验方式来判定
这里


未命名.JPG


我也来说两句 查看全部回复

最新回复

  • aiyinsitan (2008-10-09 16:45:52)

    在研究X与Y的关系时,想要定量表述X对Y的解释程度,我们往往看R-SQ的大小,这时候我们往往使用回归,如果拟和状态不理想,不可妄下断论,有时候如果我们对X做适当的变换,可能会收到意想不到的效果
    看下例:
    x                                       y
    1        1.5
    2        3.8
    3        5.7
    4        7
    5        8
    6        8.5
    7        8.9


    —————   2008-10-9 16:30:46   ————————————————————

    回归分析: Y 与 X

    回归方程为
    Y = 1.36 + 1.21 X


    自变量    系数  系数标准误     T      P
    常量    1.3571      0.7088  1.91  0.114
    X       1.2107      0.1585  7.64  0.001


    S = 0.838664   R-Sq = 92.1%   R-Sq(调整) = 90.5%


    方差分析

    来源      自由度      SS      MS      F      P
    回归           1  41.043  41.043  58.35  0.001
    残差误差       5   3.517   0.703
    合计           6  44.560


    Y 残差图


    回归分析: Y 与 倒数

    回归方程为
    Y = 9.38 - 8.59 倒数


    自变量    系数  系数标准误      T      P
    常量    9.3826      0.5494  17.08  0.000
    倒数    -8.592       1.182  -7.27  0.001


    S = 0.877850   R-Sq = 91.4%   R-Sq(调整) = 89.6%


    方差分析

    来源      自由度      SS      MS      F      P
    回归           1  40.707  40.707  52.82  0.001
    残差误差       5   3.853   0.771
    合计           6  44.560


    异常观测值

                                 拟合值         标准化
    观测值  倒数      Y  拟合值  标准误   残差    残差
         1  1.00  1.500   0.790   0.815  0.710    2.17RX

    R 表示此观测值含有大的标准化残差
    X 表示受 X 值影响很大的观测值。


    Y 残差图


    回归分析: Y 与 平方根

    回归方程为
    Y = - 2.66 + 4.60 平方根


    自变量     系数  系数标准误      T      P
    常量    -2.6650      0.6507  -4.10  0.009
    平方根   4.6043      0.3254  14.15  0.000


    S = 0.465927   R-Sq = 97.6%   R-Sq(调整) = 97.1%


    方差分析

    来源      自由度      SS      MS       F      P
    回归           1  43.475  43.475  200.26  0.000
    残差误差       5   1.085   0.217
    合计           6  44.560


    Y 残差图


    回归分析: Y 与 自然对数

    回归方程为
    Y = 1.37 + 3.97 自然对数


    自变量      系数  系数标准误      T      P
    常量      1.3662      0.1769   7.72  0.001
    自然对数  3.9690      0.1288  30.81  0.000


    S = 0.216106   R-Sq = 99.5%   R-Sq(调整) = 99.4%


    方差分析

    来源      自由度      SS      MS       F      P
    回归           1  44.326  44.326  949.14  0.000
    残差误差       5   0.234   0.047
    合计           6  44.560


    Y 残差图
  • Jeff_wang (2008-10-11 01:54:20)

    不知道Ai想表达什么意思? 我们一定要寻找更大的R-sq、R-sq(adj)吗?
    单从这个示例来看,如果我选择二次回归,甚至三次回归,会得到更加令人吃惊的S、R-sq、R-sq(adj),这能说明这个过程输入与输出的关系更符合三次函数而非对数函数吗?
    从实践的角度看,我认为这个例子存在缺陷。因为过少的样本数据量,取样带来的变差可能误导分析的结论。对于这样的数据,完全有可能通知更加复杂的数学关系得到更佳的拟合。
    真正在实践中我们也必须试图通过各种复杂的变换去寻找更好的拟合吗?我认为这并不是一种数学游戏,如果拟合的结果已经足够好可以接受,而且残差分析也可证明的话,就可以将之应用于实践中。因为回归曲线随模型的变化而变动得极小,残差(随机误差)部分也已足够小,不会再随模型调整表现出太多的变化。
    因为不知楼主发贴本意,发表一下自己的看法,欢迎探讨。
  • aiyinsitan (2008-10-11 07:48:22)

    其实发这个帖子不是为了讨论,我在试验一些数据
    所以
    1 数据我随便弄了弄,如果误导了你,非我的本意
    2 就是我要想的,自然可以进行二次或者三次回归,但是那样是否构成了更复杂的模型?我之所以想到变换,其实是在想如何通过一次回归实现最佳拟和?
  • fiters (2008-10-11 13:12:56)

    没有深入分析过这些问题,暂时也只是会用而已..静看高手分析!!!