【統計基礎】不偏分散と標本分散

2024/09/17

小山佳祐

【統計基礎】不偏分散と標本分散

今回は統計を勉強していく上で登場する不偏分散と標本分散について記載してきます。不偏分散は二乗の偏差を（標本の数ー１）で割り、標本分散は（標本の数）で割ります。両者の違いについて詳しく説明します。

統計の種類

両者の違いを説明する前にまず統計の前提条件を確認していきます。統計には大きく記述統計と推測統計があります。記述統計とは得られたデータ自体の特徴を整理、分析するための統計です。これに対して推測統計は得られたデータから元の母集団の性質を調べるための統計です。推測統計についてイメージが難しいので詳しく説明していきます。

推測統計

推測統計とは先ほど述べたように得られたデータから母集団の性質を調べる統計のことです。具体例を確認しましょう。

今、全国の中学生の身長について調べたいと考えます。最も単純な手法は全国の中学生の身長を調べ上げてデータを分析することです。しかしながら、全員の身長のデータを集めることは非常に難しいです。よって例えば全国の中学生のうち１００人のデータを使用して母数、すなわち全国の中学生の身長について推測していくというのが推測統計です。

今回のように手間をかければ可能な場合もありますが薬の副作用や病気のデータを集める際、倫理的に全員に調査することが不可能な場合も考えられます。このようなときに推測統計を用いるのです。

推測統計の性質

ここで得られたデータから母集団の性質を推測していくことを考えますが、でたらめに推測していては適切な推測がなされているとは言えません。

そこで推測する量が満たすべき性質がいくつか挙げられています。代表的なものに不偏性と一致性というものがあります。

不偏性とはその推定量の期待値を取ると母集団の値に一致する性質。

一致性とはその推定量がサンプルサイズを大きくしていくことで母集団の値に収束する性質です。

文字だけ見ていても分かりにくいので、以下では具体例を通じて説明していきます。

以下の例では$\text{平均 } \mu \text{ 分散 } \sigma^2 \text{ }$の母集団からサンプルを抜き出すことを考えます。

この母集団からｎ個のサンプルを抜き出し、母集団の平均を推定するため標本平均

$$

\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i

$$

を考えます。ここまでが母集団からサンプルを抜き出し、サンプルデータから母集団の性質を分析することに該当し、母集団の平均を標本平均で推測したことになります。この標本平均が満たすべき二つの性質、不偏性、一致性を満たすかどうか確認していきます。

不偏性の確認

では標本平均が不偏性を満たすかどうか確認します。不偏性とは推定量の期待値を取ると母集団の値に一致する性質でした。今回の例では標本平均の期待値を取ると、母集団の平均 μ に一致することを示せばよいです。

では、標本平均の期待値を取ると

$$

E(\overline{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right)

$$

詳細は割愛しますが、期待値の線形性より、

$$

E(\overline{X}) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \sum_{i=1}^n \mu = \frac{1}{n} \cdot n\mu = \mu

$$

となって、母集団の平均に一致したので推定量は不偏性を満たすことが確かめられました。

一致性の確認

一致性とはサンプルサイズを大きくしていくことで推定値が母集団の値に収束する性質でした。

ここで証明は複雑になってしまうので、次の項目まで飛ばしてしまっても問題ありません。

まずは、標本平均の分散を計算します。

$$

\text{Var}(\overline{X}) = \text{Var}\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}

$$

ここでチェビシェフの不等式を用います。この不等式は

$$

P(|X – \mu| \geq k\sigma) \leq \frac{1}{k^2}

$$

であり、確率変数の散らばり（平均からどれだけ離れるか）と標準偏差との関係を示した不等式です。この不等式より任意の ε>0 に対して（ε = kσと変形）

$$

P(|\overline{X} – \mu| \geq \epsilon) \leq \frac{\text{Var}(\overline{X})}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2}

$$

が成立しnを大きくすることで右辺が０に収束していきます。これより左辺は「どんなに小さな正のεより、標本平均と母平均の値のずれが大きくなる確率」は右辺よりほとんど０となるので、標本平均が母平均に収束することが示され、一致性を満たすことが示されました。

標本分散の性質

さて、ここまで話が逸れてしまいましたが、今度はサンプルデータから母集団の分散を推定することを考えましょう。ではサンプルデータから母集団の分散を推定する量として以下を定義します。

$$

S^2 = \frac{1}{n} \sum_{i=1}^n (X_i – \overline{X})^2

$$

これは通常の分散と同じです。この推定量が不偏性を満たすかどうか確認していきましょう。

標本平均の場合と同じように推定量の期待値を取り、母集団の値、今回は母分散 σ^2 に一致するかを確認します。

この推定量を変形すると

$$

S^2 = \frac{1}{n} \left( \sum_{i=1}^n X_i^2 – n\overline{X}^2 \right)

$$

となり、期待値を取ると

$$

E(S^2) = \frac{1}{n} \left( E\left(\sum_{i=1}^n X_i^2\right) – nE(\overline{X}^2) \right)

$$

であり、第二項について詳細は省きますが

$$

E(\overline{X}^2) = \frac{1}{n^2} E\left(\left(\sum_{i=1}^n X_i\right)^2\right) = \frac{1}{n^2} \left( n\sigma^2 + n(n-1)\mu^2 \right)

$$

と展開できるので

最終的に

$$

E(S^2) = \frac{1}{n} \left( n\sigma^2 – n\frac{\sigma^2 + (n-1)\mu^2 – \mu^2}{n} \right) = \frac{n-1}{n}\sigma^2

$$

となります。よってこの推定量の期待値は元の母集団の分散と一致しません。すなわち、不偏性を満たさないのです。これでは推定量として適切ではありません。これを修正するために

$$

\frac{n}{n-1}E(S^2) = \sigma^2

$$

として、すなわち元の推定量としてnで割る代わりにn-1で割れば

$$

S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i – \overline{X})^2

$$

となり、こちらの量は不偏性を満たします。詳細は省きますが同様に一致性も満たします。

この推定量こそが今回のタイトルにもある不偏分散なのです。

終わりに

今回は不偏分散と標本分散の違いについて説明しました。

すなわち取得したデータそのものの性質を調べたいときは標本の数で割り、取得したデータから元の母分散の分散を推定したいときは不偏分散ということですね。

次回は今回省略した、途中式やチェビシェフの不等式についても扱おうと思います。

Data Driven Knowledgebase

【統計基礎】不偏分散と標本分散

目次

統計の種類

推測統計

推測統計の性質

不偏性の確認

一致性の確認

標本分散の性質

終わりに

「AIを取り巻く環境と、これからのリアル」～イベント「Dataiku MEET-UP」レポート

[データ分析のためのBigQueryクエリ]　SQLで年別優良顧客推移を算出

[機械学習]バリデーション手法徹底解説 Part.1

双方向LSTMによる時系列予測モデルの構築

Uplift Modelingを用いた効果的なマーケティング戦略の構築

目次

統計の種類

推測統計

推測統計の性質

不偏性の確認

一致性の確認

標本分散の性質

終わりに

あわせて読みたい

「AIを取り巻く環境と、これからのリアル」～イベント「Dataiku MEET-UP」レポート

[データ分析のためのBigQueryクエリ] SQLで年別優良顧客推移を算出

[機械学習]バリデーション手法 徹底解説 Part.1

双方向LSTMによる時系列予測モデルの構築

Uplift Modelingを用いた効果的なマーケティング戦略の構築

[データ分析のためのBigQueryクエリ]　SQLで年別優良顧客推移を算出

[機械学習]バリデーション手法徹底解説 Part.1