特に、サンプルデータから母集団を推定する方法を考えていきます。
その① 母集団の分散を推定する
☆標本分散と不偏分散(点推定)
まずは、分散といえど2種類あることに注意しましょう。
標本分散と不偏分散です。
標本分散は以下で計算できます。
$$\frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2$$
不偏分散は以下で計算できます。
$$\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \overline{x})^2$$
nで割るか。n-1で割るかの違いです。
この違い正しくわかっていますか?
業務に応じて、目的にそった方法で計算する必要があります。
例えば、
全数検査を行う場合は、
全数検査集団 = 母集団
なので、標本分散でOK!
しかし、抜き取り検査である場合は、
抜き取り検査集団 ≠ 母集団
のため、不偏分散で計算しましょう!
標本分散で計算すると、実際の母集団の分散より小さい値になってしまうことが知られています。
そのため、母集団の分散を推定するために、抜き取り検査を行っている場合(たいていそうだと思いますが)は、不偏分散で計算しましょう!
ただ、安心してください!
たいていの場合、一般的な計算では、n-1で計算されています。
本題は次です。
☆不偏分散が求まればOKなの?
不偏分散が求まればOKなのか?
そうとは限らない場合があります。
限られたデータから考えた場合、求めた分散もある分布をもってバラつくからです。
分散がバラつくので、母集団を厳密に評価できたとは限りません。
そのため、確率的に、分散がどのくらい異なってくるかを判断する必要があります。
その分散のバラつき具合を推定することを区間推定といいます。
一方で、先ほどの不偏分散だけで計算するのは、点推定といいます。
では、区間推定の方法について、次は学んでいきましょう。
☆区間推定(分散編)
得られたデータから分散の区間推定をする方法を覚えておきましょう。
得られたデータから分散の区間推定をする方法を覚えておきましょう。
データが正規分布に従う時、区間推定を行うために、以下の法則を利用します。
平方和を $ S= \sum_{i=1}^{n}(x_i - \overline{x})^2$と定義したとき$\frac{S}{\sigma^2}$は自由度n-1の$\chi^2$分布に従う。
上記の法則から、確率95%の分散の区間推定は、以下のようにかけます。
$$ \frac{S}{\chi^2(n-1,0.025)} \leq \sigma^2 \leq \frac{S}{\chi^2(n-1,0.975)}$$
以下の例題を使って覚えてみましょう。
例題
あるエンジニアがりんごを作りました。
そのりんごの重さを10個測定したところ、以下の重さでした。
296,299,302,298,301,297,304,303,305,294[g]
このりんごの母集団の分散の95%信頼区間を推定します。
ただし、りんごの重さの母集団は、正規分布とみなしてよいとしましょう。
◯Excelで計算する
点推定:$\sigma^2$ VAR(データ)=13.4
残差平方和:S DEVSQ(データ)=120.9
下側カイ二乗分布:CHIINV(0.025,9)=19.0
上側カイ二乗分布:CHIINV(0.975,9)=2.70
区間推定結果:S/CHIINV(0.025,9) = 6.4 ≦ $\sigma^2$ ≦ 44.8 = S/CHIINV(0.975,9)
◯Scilabで計算する
点推定:$\sigma^2$ variance(A)=13.4
区間推定結果:S/cdfchi("X",9,0.975,0.025) = 6.4 ≦ $\sigma^2$ ≦ 44.8 = S/cdfchi("X",9,0.025,0.975)
標準偏差は、2.5 ≦ $\sigma$ ≦ 6,7 [g]になります。
3$\sigma$は、最大で20[g]です。
3$\sigma$は、最大で20[g]です。
こんな感じです。
正しく使えるかが重要かもしれませんね。
☆何故、不偏分散は、n-1で割るのか
これについては、実務レベルで毎回考える必要ないと思いますが・・・
ただ、この状態は気持ち悪いと思うので以下に分かりやすいリンクを残しておきます。
分散の期待値を計算していくと、n-1で割っているのが分かりますよね。
標本分散は、求めた平均(標本平均)が母平均と異なるため、分散が小さくでてしまいます。
標本分散に対して、n/(n-1)倍したものが、母分散の推定量と一致すると覚えておきましょう!
川田 昌克
森北出版
売り上げランキング: 160,547
森北出版
売り上げランキング: 160,547
0 件のコメント:
コメントを投稿