「標本分散」と「標本標準偏差」の分母が「n-1」の理由

Dispresion ダウンロード

　統計で必要な数値として、代表的なものに「平均」「分散」「標準偏差」があります。この値を算出する際、「分散」と「標準偏差」の算出の際は、分母がその統計値の対象となった数値の個数「n」なのに、「標本分散」と「標本標準偏差」の分母が標本数がnだとすれば「n-1」なのに困惑すると思います。

　今回は、Excelを使って実際に計算して上での分母が「n」と「n-1」の理由と、理論上からの説明を試みてみたいと思います。

推定
不偏性
Excelでの検証

推定

　「サンプリング」は全てのデータを解析するわけではなく、全てのデータの中からいくつかを「サンプリング」して推定することになります。

　そこで「推定量」を正しく得るためのルールがあります。

　「推定量」を得るための望ましい性質が3つあります。
　　①不偏性 : 推定量平均が母数に等しくなること
　　②一致性 : 標本を多くとると母数に限りなく近づくこと。
　　③有効性 : 推定量の分散が最も小さいこと。

となります。

fm「これだれ実験経験法」　森田宏著

不偏性

　資料を得るための調査には、国勢調査のように、対象としている全集団(母集団といいます)について調査する方法で、これを全数調査といいます。

　これに対して、通常の統計調査は、対象となる集団の一部(標本といいます)に対して行います。これを標本調査といいます。

　標本調査のとき、その標本の選び方によって、平均ゃ分散、共分散の値は変化します。すなわち、平均や分散自体が確率に支配される変量(確率変数)になるのです。

　標本で得られた資料について、そん分散(標本分散)をs² としましょう。これは、次のように定義されます。

　s²の値も標本の取り方によって変動しますが、分母をこのようにn-1にすると、次の様な性質が生まれます。すなわち、個数nのいろいろな標本を選択し、それらから得られた分散の平均をとると、

すべての標本から得られた分散s²の平均は、母集団の分散σ²に一致する

このような性質を不偏性といいます。「標本分散」や「標本標準偏差」は、この不偏性を持っているので、「不偏分散」や「不偏標準偏差」とも呼ばれます。

　別の表現をすれば、

「標本分散」の分母を「n」とした場合は、その「標本分散」の平均値は、母集団の分散s²に一致せず、「標本分散」の分母を「n-1」とした場合は、その「標本分散」の平均値は、母集団の分散s²に一致します。

「標本分散」の平均値を母集団の分散s²に一致させるためには、「標本分散」の分母を「n-1」としたする必要があります(不偏性確保のため)。

Excelでの検証

　それでは、本当に分散値の分母が「n」と「n-1」で、その平均値が母集団の分散s²　と異なってくるのでしょうか？Excelでランダムな数値を作成し、分散値を「n」と「n-1」で割ったものを、母集団の分散と比較して見ました。

(1)まず、このページ上部のExcelファイルをダウンロードします。

(2)Excelファイルのシート「N=9,10」を選択します。

(3)シート「N=9,10」を見てみると、これはサンプリングの数が10個のときに、分散の計算式の分母が「9」(不偏分散)と「10」(標本分散)とで計算した結果と、それと「10」個での(平均)を計算したシートです。

(4)シートの内容解説

　まず、「C列」ですが、「Rnd()」関数を使用して、ランダムな数列を5,000個作成しています。「Rnd()」関数は、「0から1」までの数字を生成するので、一度「D列」にコピーしてから10倍にしてにいます。
　また、Excelを操作するたびに値が変わってしまうので、さらに「F列」にコピーして、それを基にして不偏分散、標本分散や平均を計算しています。

(5)平均値の説明