常態分配與t-分配是很類似的機率分配模式,一個是有比較集中的峰態與單薄的尾部,一個是有比較偏平的峰態與厚重的的尾部,但兩者都是屬於對稱型的分配模式。
我們知道做母體平均數的估計(點估計/區間估計)或是假設檢定時,都知道可以用常態(正态)分配或是t-分配來做。
就學理上來說,其中的差別在那裏:什麼時候該用常態分配、什麼時候該用t-分配?
請大家一起來發表意見。
[ Last edited by howard on 2003-8-25 at 16:47 ]
字体: 小 中 大 | 打印 发表于: 2003-8-25 12:10 作者: howard 来源: 6sigma品质网
最新回复
howard (2003-8-25 13:14:45)
大數法則有告訴我們,只要樣本數夠大,樣本平均數(Xbar)的分配會收斂到一個常態分配。所以說,不管原來的母體真正的分配是那一種,應該通通都可以用常能分配就可以啦!那為什麼還要多考慮一個t-分配呢?問題就出在於我們對原來母體離散程度的瞭解。
大家想想看,我們會用那個值來描述資料的離中趨勢?
[ Last edited by howard on 2003-8-25 at 16:45 ]
Jorken (2003-8-25 21:41:22)
howard (2003-8-25 22:37:47)
我們一般在做問題討論時,都是用標準差而不是用變異數。
所以答案的關鍵就在於母體標準差是否為已知。
如果說母體的標準差已知,或是由過去的經驗得到一個可以用來代表母體標準差的量,則就用常態分配(Z)的方法。戶之,當母體標準差未知時,就必須用t-分配的方法。
為什麼呢?
[ Last edited by howard on 2003-8-26 at 08:46 ]
howard (2003-8-26 09:00:30)
令X與Y表兩個獨立的隨機變數(Random Variable),其分配模式分別為X為標準常態分配,Y是具自由度=df的卡方(Chi-Square)分配。以符號表示如下:
另外令
則隨機變數T為具有具自由度=df的Student’s t-分配,簡稱為t-分配。
t-分配是英國學者Gosset於1908年以筆名Student所發表的,故取名為t分配。t分配跟常態分配一樣,都是對稱於平均數的機率分配,且其平均數與標準常態分配一樣=0。與常態分配最大的不同點在於,t分配的形狀會隨著自由度(Degree of Freedom) 的不同而改變。如下圖所示:
所謂自由度是指統計量中各變量可以自由變動的個數,當統計量中每含一個條件時,自由度就會少一個。當自由度越小,t分配的離散程度就越大;相對地,當自由度越大時,t分配的離散程度就越小,而且會越接近標準常態分配。一般來說,當df ≧ 30時,t分配與標準常態分配已經非常類似了;尤其當df ->∞ (表示很大很大),t分配也可視為一個標準常態分配。
[ Last edited by howard on 2003-8-26 at 10:51 ]
howard (2003-8-26 11:03:24)
我們可以知道:樣本平均數是母體平均數的不偏估計量,而樣本變異數為母體變異數的不偏估計量。亦即
在此符號E表期望值的計算,而不偏估計量的意義就是統計量取期望值之後,計算的結果就等於該參數值。
這個在數理統計上已經為我們解決這個問題、已經證明它的合法性,所以我們不需要去擔心為什麼。數理統計與應用統計的區在於,數理統計要去找一些好的性質、好的統計方法,並且以數學基礎來證明它的合法性。而應用統計或在實務的應用上,我們不用去煩惱這些問題,我們只要會使用這些方法就可以了。
到此,我們該具備的基本知識都差不多了。以下就開始來解釋為什麼時候用Z分配、什麼時候用t分配。
很明顯地,如果我們對於母體的分散性質有所瞭解-母體變異數已知或有一個先驗值可以來代替,所有的討論都可以直接用Z分配來解釋。
但是如果母體變異數未知,而且也沒有適當的先驗值可以來說明,則在Z分配中分母的位置是一個未知量,所以必須找一個適當的統計量來估計。由前面的解釋過程,我們知道用母體變異數的不偏估計量S^2是最直接的。所以
所以原本Z統計量中分母σ為未知的量,可以直接用S來取代,而且所成的統計量剛好就是自由度為n-1的t-分配。因此,所有的討論就變成用t-分配來解釋。
請那位來解釋一下,為什麼會變t-分配呢?我會建議斑主加分。
[ Last edited by howard on 2003-8-26 at 11:41 ]
howard (2003-8-26 14:08:43)
點一下,大家想想
Jorken (2003-8-26 19:46:05)
aiyiguang (2003-8-26 20:13:39)
aiyiguang (2003-8-26 20:20:09)
所以:
1、当方差未知时,μ的估计用t分布
2、当方差已知时,μ的估计用正态分布
howard (2003-8-27 08:11:12)
QUOTE:
呵呵!別說你,我自己都想睡覺了!分子的部份是一個標準常態分配,而分母的部份則是(一個自由度為n-1的卡方分配除以本身的自由度)的二分之一次方。這樣的式子就剛好是t-分配的基本定義。所以原本Z統計量中分母σ為未知的量,可以直接用S來取代,而且所成的統計量剛好就是自由度為n-1的t-分配。因此,所有的討論就變成用t-分配來解釋。
哈哈,這就是為什麼當母體方差(或標準差)未知的時候,必須換成用t-分配來討論的原因了。
另外還有一點要補充說明。t-分配商合用在小量樣本的問題,就算母體的變異數已知,在樣本數不夠大時,用t-分配會比用常態分配來得Robust。所以建議在小樣本時,應該採用t-分配會比較恰當。
drinkingsnow (2003-8-27 11:40:31)
QUOTE:
H兄:有高处不胜寒的感觉了吧!
曲高和寡吗?谁让老兄水平高高……
欧立威 (2003-8-27 16:34:39)
公式一串一串的,我都看不过来,基本上我明白了T分布的原理,可是,它有什么用呢?它能解决什么样的问题?怎样解决的呢?
howard (2003-8-27 17:13:18)
樣本數不夠大時,資料分佈型態在尾部的地方會有較大的不一致,造成分佈圖在兩端尾部呈現比較厚重的現像。如此,對整組資料會造成峰態係數變小。這種情形之下,以t-分配來解釋資料會比用常態分配寫實一些。
所以我們在做母體均值的點估計(參數的預測)、區間估計(置信區間)或是假設檢定等,如果原母體的方差未知,那毫無疑問要用t-分配來討論。另外在樣本數不夠大的情形下,也建議用t-分配會比較恰當一些。
howard (2003-8-28 10:20:35)
這組資料是引用MINITAB R13所附的一個範例Camshaft.mtw。原本有三個變數:Length、Supp1與Supp2,在此我只用第一個變數來說明。
我們可以發現,這兩個對話框幾乎完全一樣。唯一的差別是:
在1-Sample Z的對話框中有要我們輸入Standard deviation的欄位。
在1-Sample t的對話框中則沒有要輸入Standard deviation的欄位,MINITAB會自動以樣本來估計這個標準差。
我們可以發現,區間估計與假設檢定的結果都蠻一致的。
現在試試小樣本的情形:我由原來Length的100筆資料中,隨機抽出個數為20的小樣本。選單指令為Calc->Random Data->Sample from columns。
在相同的條件下,用常態分配與t-分配再分別做的結果如下:
結果是不一致的現象。所以在小樣本的情形下,為了採取比較保守的做法,個人建議用t-分配。
這一個例子供大家參考。
aiyiguang (2003-8-31 13:07:23)
QUOTE:
深刻!使我更加清楚了t分布的用处yingzhang_1973 (2003-9-02 13:55:21)
willnow (2003-9-03 20:14:12)
多謝
yamahaboy (2003-9-04 15:09:43)
QUOTE:
多谢H大师, 但我还有小问题, 就是这里用的Z是代表什么? 标准常态分布?它与T的转化公式怎样的?
取20个小样时的P又代表什么?
请多多指教!
stdev (2003-9-04 22:07:01)
但请注意, 样本总体一定是要正态型的, 且样本数不能太少, 最好大于15。因为必竟, T分布是从正态分布推导出来的。
howard (2003-9-07 21:15:56)
QUOTE:
對,Z是指常態分配(標準常態分配)。有關常態分配與t-分配,請參考前面的說明。
P值是指假設檢定的顯著性。