Sampling Distribution
Sample( 樣本 ),是整個數據組的一部份。
如全港人口的年齡,是整體( Population ),我們在這個整體抽取某一部分,如只在香島區某條街做統計。
這種統計法就是 Sampling。
做 Sampling 的原因有許多,其中一個最大的原因是因為整體太大,以整體來做統計,花費甚巨。Sampling 是一個省錢的方法。
當然,Sampling 不一定能充分地代表整體,偏差在所難免。這是「成本」與「準確」的 trade off。
Sample Mean and Variance
假設由 Sampling 而來的數據,叫做 X 。數據的多小數量( Sample Size )是 n。
這一組數據的預期值( 平均值 )( Sample Mean ),叫做 Bar X。以
表示。
這一組數據的預期偏差值( 平方偏差 )( Sample Variance ),以
表示。
|
Mean |
Variance |
Sample |
|
|
Population |
|
|
由上表可見,Sample 與 Population 之間的最大分別,就是 Size 不是,Sample 是 n ,而 Population 是 N。
如果 n = N,當然,Sample = Population。
如果由同一個 Population 中,抽取多個 Sample。每一個 Sample 也有其 Sample Mean 及 Variance。
若果,將這些 Sample Mean 當成一組的新的 Sample,其 Mean 叫做 Double Bar X。其 Standard Deviations ( Variance 的開方 )
叫做 Standard Error。
Mean |
|
Variance |
X 之間一定要沒有關係( Independent ),才會使 cov( ) = 0。
|
|