「標本分散」と「標本標準偏差」の分母が「n-1」の理由

　統計で必要な数値として、代表的なものに「平均」「分散」「標準偏差」があります。この値を算出する際、「分散」と「標準偏差」の算出の際は、分母がその統計値の対象となった数値の個数「n」なのに、「標本分散」と「標本標準偏差」の分母が標本数がnだとすれば「n-1」なのに困惑すると思います。

　今回は、Excelを使って実際に計算して上での分母が「n」と「n-1」の理由と、理論上からの説明を試みてみたいと思います。

不偏性

　資料を得るための調査には、国勢調査のように、対象としている全集団(母集団といいます)について調査する方法で、これを全数調査といいます。

　これに対して、通常の統計調査は、対象となる集団の一部(標本といいます)に対して行います。これを標本調査といいます。

　標本調査のとき、その標本の選び方によって、平均ゃ分散、共分散の値は変化します。すなわち、平均や分散自体が確率に支配される変量(確率変数)になるのです。

　標本で得られた資料について、そん分散(標本分散)をs² としましょう。これは、次のように定義されます。

　s²の値も標本の取り方によって変動しますが、分母をこのようにn-1にすると、次の様な性質が生まれます。すなわち、個数nのいろいろな標本を選択し、それらから得られた分散の平均をとると、

すべての標本から得られた分散s²の平均は、母集団の分散σ²に一致する

このような性質を不偏性といいます。「標本分散」や「標本標準偏差」は、この不偏性を持っているので、「不偏分散」や「不偏標準偏差」とも呼ばれます。

　別の表現をすれば、

「標本分散」の分母を「n」とした場合は、その「標本分散」の平均値は、母集団の分散s²に一致せず、「標本分散」の分母を「n-1」とした場合は、その「標本分散」の平均値は、母集団の分散s²に一致します。

「標本分散」の平均値を母集団の分散s²に一致させるためには、「標本分散」の分母を「n-1」としたする必要があります(不偏性確保のため)。

　それでは、本当に分散値の分母が「n」と「n-1」で、その平均値が母集団の分散s²　と異なってくるのでしょうか？Excelでランダムな数値を作成し、分散値を「n」と「n-1」で割ったものを、母集団の分散と比較して見ました。

参考文献:「図解でわかる回帰分析複雑な統計データを解き明かす実践的予測の方法」涌井良幸/涌井貞美日本実業出版社