8月份第四週話题:什麼時候用常態分配、什麼時候用t-分配

什麼時候用常態分配、什麼時候用t-分配

常態分配與t-分配是很類似的機率分配模式,一個是有比較集中的峰態與單薄的尾部,一個是有比較偏平的峰態與厚重的的尾部,但兩者都是屬於對稱型的分配模式。
我們知道做母體平均數的估計(點估計/區間估計)或是假設檢定時,都知道可以用常態(正态)分配或是t-分配來做。
就學理上來說,其中的差別在那裏:什麼時候該用常態分配、什麼時候該用t-分配?
請大家一起來發表意見。

[ Last edited by howard on 2003-8-25 at 16:47 ]
我也来说两句 查看全部回复

最新回复

  • howard (2003-8-25 13:14:45)

    我先來起個頭:

    大數法則有告訴我們,只要樣本數夠大,樣本平均數(Xbar)的分配會收斂到一個常態分配。所以說,不管原來的母體真正的分配是那一種,應該通通都可以用常能分配就可以啦!那為什麼還要多考慮一個t-分配呢?問題就出在於我們對原來母體離散程度的瞭解。
    大家想想看,我們會用那個值來描述資料的離中趨勢?

    [ Last edited by howard on 2003-8-25 at 16:45 ]
  • Jorken (2003-8-25 21:41:22)

    然后有该如何?请指教
  • howard (2003-8-25 22:37:47)

    沒有錯,就是Standard Deviation(標準差)。一般來說,最常用來代表資料的集中性質的量就是Variance(變異數或方差)。但是變異數與原來資料的單位不一樣─因為變異數的單位是原來單位的平方,所以就把變異數取二分之一次,得到的量就跟原來的單位是一致的,這個值就是標準差。
    我們一般在做問題討論時,都是用標準差而不是用變異數。

    所以答案的關鍵就在於母體標準差是否為已知

    如果說母體的標準差已知,或是由過去的經驗得到一個可以用來代表母體標準差的量,則就用常態分配(Z)的方法。戶之,當母體標準差未知時,就必須用t-分配的方法。

    為什麼呢?

    [ Last edited by howard on 2003-8-26 at 08:46 ]
  • howard (2003-8-26 09:00:30)

    在接下來的說明之前,我們先來看看T-分配的由來。可能會用到一些數理統計的術語,或是比較數學化的一些定義,大家看看就好。

    令X與Y表兩個獨立的隨機變數(Random Variable),其分配模式分別為X為標準常態分配,Y是具自由度=df的卡方(Chi-Square)分配。以符號表示如下:

    另外令

    則隨機變數T為具有具自由度=df的Student’s t-分配,簡稱為t-分配。

    t-分配是英國學者Gosset於1908年以筆名Student所發表的,故取名為t分配。t分配跟常態分配一樣,都是對稱於平均數的機率分配,且其平均數與標準常態分配一樣=0。與常態分配最大的不同點在於,t分配的形狀會隨著自由度(Degree of Freedom) 的不同而改變。如下圖所示:

    所謂自由度是指統計量中各變量可以自由變動的個數,當統計量中每含一個條件時,自由度就會少一個。當自由度越小,t分配的離散程度就越大;相對地,當自由度越大時,t分配的離散程度就越小,而且會越接近標準常態分配。一般來說,當df ≧ 30時,t分配與標準常態分配已經非常類似了;尤其當df ->∞ (表示很大很大),t分配也可視為一個標準常態分配。

    [ Last edited by howard on 2003-8-26 at 10:51 ]
  • howard (2003-8-26 11:03:24)

    接下來,我們要解釋一個很重要的性質。就是因為有這個性質的存在,我們才能得到所要的結果。


    我們可以知道:樣本平均數是母體平均數的不偏估計量,而樣本變異數為母體變異數的不偏估計量。亦即

    在此符號E表期望值的計算,而不偏估計量的意義就是統計量取期望值之後,計算的結果就等於該參數值。

    這個在數理統計上已經為我們解決這個問題、已經證明它的合法性,所以我們不需要去擔心為什麼。數理統計與應用統計的區在於,數理統計要去找一些好的性質、好的統計方法,並且以數學基礎來證明它的合法性。而應用統計或在實務的應用上,我們不用去煩惱這些問題,我們只要會使用這些方法就可以了。

    到此,我們該具備的基本知識都差不多了。以下就開始來解釋為什麼時候用Z分配、什麼時候用t分配。

    很明顯地,如果我們對於母體的分散性質有所瞭解-母體變異數已知或有一個先驗值可以來代替,所有的討論都可以直接用Z分配來解釋。
    但是如果母體變異數未知,而且也沒有適當的先驗值可以來說明,則在Z分配中分母的位置是一個未知量,所以必須找一個適當的統計量來估計。由前面的解釋過程,我們知道用母體變異數的不偏估計量S^2是最直接的。所以

    所以原本Z統計量中分母σ為未知的量,可以直接用S來取代,而且所成的統計量剛好就是自由度為n-1的t-分配。因此,所有的討論就變成用t-分配來解釋。

    請那位來解釋一下,為什麼會變t-分配呢?我會建議斑主加分。

    [ Last edited by howard on 2003-8-26 at 11:41 ]
  • howard (2003-8-26 14:08:43)

    怎麼都沒有人來跟我交流一下。5555555555...

    點一下,大家想想
  • Jorken (2003-8-26 19:46:05)

    想睡觉了,不好意思了,开玩笑
  • aiyiguang (2003-8-26 20:13:39)

    当方差未知时,正态均值Xbar的分布t分布
  • aiyiguang (2003-8-26 20:20:09)

    当方差已知时,正态均值Xbar的分布就是正态分布
    所以:
    1、当方差未知时,μ的估计用t分布
    2、当方差已知时,μ的估计用正态分布
  • howard (2003-8-27 08:11:12)

    QUOTE:

    Originally posted by Jorken at 2003-8-26 07:46 PM:
    想睡觉了,不好意思了,开玩笑
    呵呵!別說你,我自己都想睡覺了!



    分子的部份是一個標準常態分配,而分母的部份則是(一個自由度為n-1的卡方分配除以本身的自由度)的二分之一次方。這樣的式子就剛好是t-分配的基本定義。所以原本Z統計量中分母σ為未知的量,可以直接用S來取代,而且所成的統計量剛好就是自由度為n-1的t-分配。因此,所有的討論就變成用t-分配來解釋。

    哈哈,這就是為什麼當母體方差(或標準差)未知的時候,必須換成用t-分配來討論的原因了。

    另外還有一點要補充說明。t-分配商合用在小量樣本的問題,就算母體的變異數已知,在樣本數不夠大時,用t-分配會比用常態分配來得Robust。所以建議在小樣本時,應該採用t-分配會比較恰當。
  • drinkingsnow (2003-8-27 11:40:31)

    QUOTE:

    Originally posted by howard at 2003-8-26 02:08 PM:
    怎麼都沒有人來跟我交流一下。5555555555...

    點一下,大家想想
    H兄:
    高处不胜寒的感觉了吧!
    曲高和寡吗?谁让老兄水平高高……
  • 欧立威 (2003-8-27 16:34:39)

    确实是高手!
    公式一串一串的,我都看不过来,基本上我明白了T分布的原理,可是,它有什么用呢?它能解决什么样的问题?怎样解决的呢?
  • howard (2003-8-27 17:13:18)

    一般來說,t-分配是專門用來處理小樣本的問題。

    樣本數不夠大時,資料分佈型態在尾部的地方會有較大的不一致,造成分佈圖在兩端尾部呈現比較厚重的現像。如此,對整組資料會造成峰態係數變小。這種情形之下,以t-分配來解釋資料會比用常態分配寫實一些。
    所以我們在做母體均值的點估計(參數的預測)、區間估計(置信區間)或是假設檢定等,如果原母體的方差未知,那毫無疑問要用t-分配來討論。另外在樣本數不夠大的情形下,也建議用t-分配會比較恰當一些。
  • howard (2003-8-28 10:20:35)

    以下用MINITAB的操作,來看看單樣本Z方法與單樣本t方法的差別。有一個變數Length共有100筆資料,我們要檢定其平均值是否等於600mm。假設已知標準差=2mm。
    這組資料是引用MINITAB R13所附的一個範例Camshaft.mtw。原本有三個變數:Length、Supp1與Supp2,在此我只用第一個變數來說明。


    我們可以發現,這兩個對話框幾乎完全一樣。唯一的差別是:
            在1-Sample Z的對話框中有要我們輸入Standard deviation的欄位。
            在1-Sample t的對話框中則沒有要輸入Standard deviation的欄位,MINITAB會自動以樣本來估計這個標準差。

    我們可以發現,區間估計與假設檢定的結果都蠻一致的。

    現在試試小樣本的情形:我由原來Length的100筆資料中,隨機抽出個數為20的小樣本。選單指令為Calc->Random Data->Sample from columns。
    在相同的條件下,用常態分配與t-分配再分別做的結果如下:

    結果是不一致的現象。所以在小樣本的情形下,為了採取比較保守的做法,個人建議用t-分配。

    這一個例子供大家參考。
  • aiyiguang (2003-8-31 13:07:23)

    QUOTE:

    Originally posted by howard at 2003-8-27 05:13 PM:
    一般來說,t-分配是專門用來處理小樣本的問題。

    樣本數不夠大時,資料分佈型態在尾部的地方會有較大的不一致,造成分佈圖在兩端尾部呈現比較厚重的現像。如此,對整組資料會造成峰態係數變小。這種情形之下,以 ...
    深刻!使我更加清楚了t分布的用处
  • yingzhang_1973 (2003-9-02 13:55:21)

    妙极
  • willnow (2003-9-03 20:14:12)

    來此之前我認為我的統計知識夠,但是現在看來要學習的還是很多.
    多謝
  • yamahaboy (2003-9-04 15:09:43)

    QUOTE:

    Originally posted by howard at 2003-8-28 10:20 AM:
    以下用MINITAB的操作,來看看單樣本Z方法與單樣本t方法的差別。有一個變數Length共有100筆資料,我們要檢定其平均值是否等於600mm。假設已知標準差=2mm。
    這組資料是引用MINITAB R13所附的一個範例Camshaft.mtw ...
    多谢H大师, 但我还有小问题, 就是这里用的Z是代表什么? 标准常态分布?
    它与T的转化公式怎样的?

    取20个小样时的P又代表什么?

    请多多指教!
  • stdev (2003-9-04 22:07:01)

    让不才总结一下, 对于总体标准差未知的正态型分布,适合用t 分布, 但当样本数大于30时, t 分布接近于正态分布, 商务活动中习惯用Z分布代替T分布, 因此T分布最大的用途是样本数小于30时的正态型样品均值估计。
          但请注意, 样本总体一定是要正态型的, 且样本数不能太少, 最好大于15。因为必竟, T分布是从正态分布推导出来的。
  • howard (2003-9-07 21:15:56)

    QUOTE:

    Originally posted by yamahaboy at 2003-9-4 03:09 PM:
    多谢H大师, 但我还有小问题, 就是这里用的Z是代表什么? 标准常态分布?
    它与T的转化公式怎样的?

    取20个小样时的P又代表什么?

    请多多指教!
    對,Z是指常態分配(標準常態分配)。
    有關常態分配與t-分配,請參考前面的說明。

    P值是指假設檢定的顯著性。