※この記事中のアプリをダウンロードするには、Microsoft社製のExcelが必要になります。
格率・統計の定理などにはどういう現象を説明しているのかがイメージし難いものがあると思います。Excelやスプレッドシートを使えば、ランダムに数値を発生させ、それを統計処理することにより、そもそもこにの定理はどういう現象について言っているのかが体感出来ればいいなと思い、この記事を書きました。
中心極限定理の説明
確率・統計の分野に「中心極限定理」というものがあります。
具体的に説明すると、いま0~10まで0.5刻みで示す5,000個のランダムなデータがあります。ランダムなデータなので、度数分布表もそれをグラフ化したヒストグラムも偏りのない形になります。この元データから無作為に10個データを取ってきて、平均値を出します。それを5,000個分繰り返します。5,000個の元データから10個の平均値を取るので、新しい数列(度数分布表、ヒストグラム)のデータの数は500個になります。
この新しい(元データから10個の平均値を取った)データに基づいて、度数分布表とヒストグラムを作成すると、新しいヒストグラムは正規分布に従うということになります。
元々のデータがランダムなのであれば、その平均値の分布もランダムのような気がするのですが、この定理によると、平均値の分布は正規分布になるというのは、何とも不思議ですが、この不思議さをこのシミュレータで実感してもらえたら、と思い作成してみました。
アプリの使用方法
まずは、このページの上部の「CLT Center-Limit-Theorem」ダウンロードします。ダウンロードしただけではうまく動かないので、ご自身のPCの適当なところ(デスクトップ等)に保存します。Excelファイルを開くと次の図の様な表示がされると思います。
Excel画面の左側が、元の5,000個のデータを作成する部分です。「C列」はExcelの「Rand」関数を使って乱数を5,000個発生させています。「D列」で「C列」の値を10倍しています。
画面中央に「対象数列コピー」というボタンがありますが、「Rand」関数はExcel画面を操作するたびに動作してセル内の値が変化するので、このボタンを押すことで、「D列」を「F列」にコピーして固定します。
一旦固定された5,000個のランダムな数列を0.5刻みで度数分布表にしたものが、「H列」「I列」です。度数分布表は自動で作成されます。その度数分布表をヒストグラム化したものが中央の「ランダムヒストグラム」です。
「対象数列コピー」ボタンを押すたびに、新しく5,000個のランダムな数列が「度数分布表」と「ヒストグラム」化されますので、中心極限定理に疑問を感じたらこのボタンを押して、ランダム数列をリセットして確認して下さい。
Excel画面の右側が、中心極限定理を計算する画面です。画面中央に「中心極限定理計算」ボタンがありますので、このボタンを押して下さい。
すると「F列」にある元データから無作為に10個データを取得して、その平均値を「R列」に書き込んでいきます。このボタンを押すと「G列」に「*」が書き込まれますが、一度選んだ「F列」の数値の隣の「G列」の行に目印として書き込んでいて「*」が書き込まれていた場合はその行は避けてサンプリングされるので、二重サンプリングは起きないようになっています。
5,000個ある「F列」の数値を10個ずつサンプリングして平均値を「R列」に書き込むので、「R列」のデータは「F列」の1/10の500個になります。「R列」に書き込まれたランダムな数列を「度数分布表」にしたのが、「T列」「U列」であり、それを「ヒストグラム」グラフにしたものが、「中心極限定理適用ヒストグラム」です。
そのヒストグラムは正規分布に近似した形をしているのが分かると思います。今回元データが5,000個しかありませんでしたが、その数をもっと増やせば、より正規分布に近づくと思われます。
Excelマクロにはロックがかかっていませんので、興味のある方はご自分で改造して確かめてもらってもいいかと思います。「中心極限定理計算」をその後も押してもらえれば「G列」の「*」はリセットされて、同じ元データから無作為抽出された平均値の数列が「R列」に作成されるので、中心極限定理に疑問を感じたらこのボタンを押して、ランダム数列をリセットして確認して下さい。
中心極限定理についての追加事項
中心極限定理についての追加事項です。
確率変数Xが平均μ分散σ2 の任意の分布に従うときに、平均値 X は平均μ分散σ2/nの正規分布に従う。
前半の青文字で書かれているのが、添付のExcelファイルの左側に示す元データで、青い度数分布表と青いヒストグラムのことを指します。Excelの中にもありますが、その平均値と分散(と標準偏差)を下記に示します。
後半の赤文字で書かれているのが、元データから10個ずつサンプリングして平均をとったデータ群のことを指します。ピンク色の度数分布表とピンク色のヒストグラムのことを指します。平均値Xとあるのは、「R列」にある「対象数列」の個々の値のことを指しています。nはサンプリング数のことで、添付したExcelの例でいうと、サンプリング数のn=10になります。
この「R列」の「対象数列」の平均値と分散(と標準偏差)を下記に示します。
この2つの表から、元データの平均は「5.005052」,サンプリング後のデータの平均は「5.0078」と近い値をしめしていて、中心極限定理に合致しています。
次に分散ですが、元データの分散は「8.386733」,サンプリング後のデータの分散は「0.84176」となり、元データの分散をサンプリング数の10で割った値に大体一致しています。
ただ、完全に一致はしていないので、「正規分布に従う」ぐらいの表現になったいるのだと思います。
「開発」タブが表示されていない場合の対処方法
Excelの初期設定状態によっては、マクロを動作させるのに必要な「開発」タブが表示されない場合がありますので、その際の対処方法を示します。
まず、Excelの上部のタブメニューの①「ファイル」を押します。すると「ホーム」画面に遷移しますので、左下にある②「オプション」を押します。「Excelのオプション」フォームが出てくるので、左のメニューから③「リボンのユーザー設定」をクリックします。左側に「リボンのユーザー設計」項目から④「☑開発」項目にチェックを入れると「開発」タブが現れます。
アプリが動作しない場合の対処方法
ウィルス対策として、ネット上からダウンロードしたOfficeソフトが上手く動作しない場合があります。「マクロが使えない」と警告メッセージが出た場合は、次の手順で対応して下さい。
1.Excelファイルを右クリックして、メニューを表示します。そして、メニューの一番下の「プロパティ」を選択します。
2.「プロパティ」が表示されるので、下部の「□許可する(K)」←①にチェックを入れ,下部の[OK]ボタン←②を押します。
これで、アプリが動作すると思います。
コメント