データに関するチェビシェフの不等式

kenjisato

2019/05/22

チェビシェフの不等式

確率変数 \(X\) に平均 \(\mu\) と分散 \(\sigma^2\) を持つとする。このとき任意の実数 \(a\)\(c > 0\) について次の不等式が成り立つ。

\[ \mathrm{Prob}\left\{ |X - a| > c \right\} \le \frac{\mathbb{E}[(X - a)^2]}{c^2} \]

これをチェビシェフの不等式という。

\(a = \mathbb{E}[X] = \mu\) とすれば,

\[ \mathrm{Prob}\left\{ |X - \mu| > c \right\} \le \frac{\sigma^2}{c^2} \]

だから,チェビシェフ不等式は「平均値から離れた値を取る確率」と分散の関係を教えてくれる。 大数の法則の証明に用いられるので知っている人も多いと思う。

\(k = c / \sigma\) として標準化すれば

\[ \mathrm{Prob}\left\{ \left| \frac{X - \mu}{\sigma} \right| > k \right\} \le \frac{1}{k^2} \]

データに関するチェビシェフの不等式

\(x_1, \dots, x_n\) という数値データが手元にある。標本平均 \(\bar{x}\) と標本分散 \(V^2\) を次のように定義する。

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i,\qquad V^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2 \]

平均から離れたデータがどれくらいあるかを知りたい。そこで, \(\bar{x} \pm kV\) の外側にあるデータの個数を \(n_k\) とする。 このとき,

\[ \frac{n_k }{n-1} < \frac{1}{k^2} \]

が成り立つことが知られている。

証明

\(R = [\bar{x} - kV, \bar{x} + kV]\) とする。\(x_i \not\in R\) のとき,\((x_i - \bar{x})^2 > k^2V^2\) に注意する。また,\(x_i \not\in R\) であるようなデータの数が \(n_k\) である。

\[ \begin{aligned} V^2 &= \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2 \\ &= \frac{1}{n-1}\left[ \sum_{x_i \in R} (x_i - \bar{x})^2 + \sum_{x_i \not\in R} (x_i - \bar{x})^2 \right]\\ &> \frac{1}{n-1}\left[ \sum_{x_i \in R} (x_i - \bar{x})^2 + n_k k^2 V^2 \right]\\ &\ge \frac{n_k k^2 V^2}{n-1} \end{aligned} \]

\(V^2\) で割って整理すると

\[ \frac{n_k}{n-1} < \frac{1}{k^2} \]

を得る。

保守性

上の証明では,

\[ \sum_{x_i \in R} (x_i - \bar{x})^2 \ge 0 \]

としてこの部分をバッサリ落としてしまっている。したがって,よっぽど特殊なデータでもない限りこの不等式は,平均から外れたデータの割合に関するかなり保守的な上限になっている。逆に言えば,平均に近いデータの割合に関するかなり保守的な下限を与えている。

実際,正規分布の場合には平均 \(\pm \sigma\) の範囲の内側におよそ 68% の点が入ると見積もれるが,チェビシェフ不等式を使うと,必ず 2点は内側にあることしか分からない。

\(k = 2\) としても,正規分布の場合には平均 \(\pm 2\sigma\) の範囲の中におよそ95% のデータが入ることが分かるが,チェビシェフ不等式によれば,およそ 75% が必ず 平均 \(\pm \times 2\times\) 標準偏差の範囲に入るということが言えるにとどまっている。

チェビシェフ不等式は分布の情報をまったく使わないことがこのような差を生んでいることに注意をしておこう。分布を仮定しなくてよいので安心ではあるが,分布に関する確かな先見情報があればそれを有効活用してより精密な見積もりを引き出すことができる。(例えば中心極限定理などを使う)