統計学



Memo


問題 (正規分布)

ある試験の平均 $\mu$ が70点、標準偏差 $\sigma$ が10点であった。 試験結果は正規分布(Normal distribution, Gaussian distribution)に従うと仮定して、 上位 5% に入るには何点が必要か答えよ。

解答

正規分布の確率の表で $x=0.0$ のとき $0.0000$ であるので、 これは $x=0$ から積分した値であることがわかり、 $0.5$ を足して考えることになる。 $x=1.64$ の値が $0.4495$ , $x=1.65$ の値が $0.4505$ なので、 $\displaystyle x= \frac{0.4495 + 0.4505}{2}=1.645$ のとき $0.4500$ , すなわち $0.9500$ であることがわかる。

したがって $\mu + 1.645 \sigma = 70 + 1.645 \times 10 = 86.45$ 点以上とれば上位 5 \% に入ることがわかる。


問題 (正規分布)

ある試験の平均 $\mu$ が70点、標準偏差 $\sigma$ が10点であった。 試験結果は正規分布(Normal distribution, Gaussian distribution)に従うと仮定して、 下位 5% は何点以下か答えよ。

解答

前の問題と同様に考えて、 $\mu - 1.645 \sigma = 70 - 1.645 \times 10 = 53.55$ 点以下が下位 5 \% であることがわかる。


問題 (正規分布)

赤ちゃんの体重の平均が $6.5$ kg, 標準偏差が $0.91$ kg である。10 \% が異常が疑われるとすると、 標準の範囲は何 kg から何 kg か。

解答

上下5 \% ずつが異常が疑われると考える。正規分布の表で 0.95 となるとこをろ探すと 1.645 であることがわかる。 したがって
$\displaystyle \begin{eqnarray} \mu - 1.645 \sigma & \le & \mbox{標準体重} & \le & \mu + 1.645 \sigma \\ 6.5 - 1.645 \times 0.95 & \le & \mbox{標準体重} & \le & 6.5 + 1.645 \times 0.95 \\ 4.93725 & \le & \mbox{標準体重} & \le & 8.06275 \\ \end{eqnarray} $


問題 (正規分布)

模擬試験の受験者が1000人、平均点が60点、標準偏差が 10 点であった。 正規分布にしたがうと仮定して、80点の人は全体の何番であると考えられるか。

解答

$\displaystyle \frac{X - \mu}{\sigma} = \frac{80-60}{10} = 2 $
正規分布の確率で $x=2.0$ のところを見ると $0.4772 + 0.5$ すなわち $0.9772$である。 これより上の分布は $1.0 - 0.9772 = 0.0228$ であり、80点は上位 2.28 \% であることがわかる。 受験生の1000人を掛けて 22.8 番である。


問題 (正規分布)

模擬試験の受験者が10000人、平均点が56点、標準偏差が 8 点であった。 正規分布にしたがうと仮定して、80点の人は全体の何番であると考えられるか。

解答

$\displaystyle \frac{X - \mu}{\sigma} = \frac{80-56}{8} = 3 $
正規分布の確率で $x=3.0$ のところを見ると $0.4987 + 0.5 = 0.9987$である。 これより上の分布は $1.0 - 0.9987 = 0.0013$ であり、80点は上位 0.13 \% であることがわかる。 受験生の10000人を掛けて 13 番である。


問題

模擬試験の受験者が10000人、平均点が70点、標準偏差が 9 点であった。 正規分布にしたがうと仮定して、50点の人は全体の何番であると考えられるか。

解答

$\displaystyle \frac{X - \mu}{\sigma} = \frac{50-70}{9} = -2.222 $
正規分布の確率で $x=2.22$ のところを見ると $0.4868 + 0.5 = 0.9868$である。 受験生の10000人を掛けて 9868 番である。


正規分布の和と差の分布、$n$倍の分布

$X$, $Y$ はともに正規分布にしたがい、独立である。 $X$の平均を$\overline{X}$, 分散を$\sigma_X$, $Y$の平均を$\overline{Y}$, 分散を$\sigma_Y$とする。


中心極限定理と大数の法則

「中心極限定理」とは「どのような分布においても、標本の平均値は正規分布にしたがって分布する」こと。

「大数の法則」とは「測定を繰り返すと、確率の理論値に近づいていく」こと。


2項分布

試行回数 $n$ , 生起確率 $p$ のとき、2項分布 を$B(n,p)$ と記述する。

2項分布は、数が大きくなると、正規分布とみなすことができる。


問題 (2項分布)

製品を作るときの不良率を$\frac{1}{1000}$とする。10000個の製品を作成したとき、不良品の個数が$k$個 である確率 $P$ を求めよ。

解答

$\displaystyle P = {}_{10000} C_{k} (\frac{1}{1000})^k (1-\frac{1}{1000})^{10000-k}$


問題 (2項分布)

720回サイコロを投げたとき、1の目が150回以上でる確率を求めよ。

解答

本来は次の式だが、計算するのは大変である。
$\displaystyle P = {}_{720} C_{150} (\frac{1}{6})^{150}(1-\frac{1}{6})^{720-150}$

試行回数が大きくなるとどのような分布も正規分布に近付くので、 正規分布に近似して計算sるう。

試行回数 $n = 720$, 生起確率 $\displaystyle p=\frac{1}{6}$ の2項分布 $B(720, \frac{1}{6})$ において、
$\displaystyle \mbox{平均} = np = 720 \times \frac{1}{6} = 120$ ,
$\displaystyle \mbox{分散} = np(1-p) = 720 \times \frac{1}{6} \times (1-\frac{1}{6}) = 100$
である。したがって、
$\displaystyle \mbox{標準偏差} = \sigma = \sqrt{100} = 10$
となる。 正規分布 $N(\mu, {\sigma}^2)$ で近似すると、150回は平均からどれだけ離れているかを $x$ とすると $\displaystyle 150 = \mu + x\sigma$ となり $\displaystyle x =\frac{150-120}{10} = 3$となる。 $x=3$の正規分布表をみると $0.4987+0.5 = 0.9987$ である。$1-0.9987 = 0.0013$ となり、 1の目が150回以上でるのは 0.13 \% である。


問題 (2項分布)

不良率が $\frac{1}{1000}$ であると言われている製品を $150$ 個検査したところ、3個の不良品が見つかった。 言われている不良率は信頼できるか。

解答

$\mbox{平均} = np = 150 \times \frac{1}{1000} = 0.15$,
$\mbox{分散} = np(1-p) = 150 \times \frac{1}{1000} \times \frac{999}{1000}= 0.14985$,
$\mbox{標準偏差} = \sqrt{\mbox{分散}} = \sqrt{0.14985} = 0.3871$
である。どれだけ平均から離れているかを$x$とすると
$3 = \mu + x \sigma = 0.15 + 0.3871 x$
$x = 7.3624$
となる。$x = 7.3$ は正規分布表にはないぐらい大きい値である。したがって、「信頼できない」と結論できる。


ポアソン分布

2項分布は、

という条件が成り立つときは、正規分布よりもポアソン分布でも近似した方がよい。

平均 $\lambda$ 回発生する事象が $k$ 回起きる$\displaystyle \mbox{確率} = \frac{e^{-\lambda} {\lambda}^k}{k!}$


問題 (ポアソン分布)

ある県は、平均して1人/年の人気お笑い芸人を輩出している。今年、2名の人気お笑い芸人を輩出する確率は。

解答

ポアソン分布で近似すると、$\lambda=1$, $k=2$ なので $\displaystyle \frac{e^{-1} 1^2}{2!} = \frac{1}{2e} = 0.1839....$ となり 18 \% であることがわかる。


推測統計

「母平均を標本平均で推定する」方法を「点推定」という。 母平均の推定値を $\hat{\mu}$, 標本平均を $m$ として $\hat{\mu} = m$

$\displaystyle \mbox{標本分散} = \frac{\Sigma (x-\mu)^2}{n}$
$\displaystyle \mbox{不偏分散} = \frac{n}{n-1} \mbox{標本分散}$

不偏分散を、母分散の推定値とする。


問題 (推測統計)

ある製品 3 個の重量を測ると 10.0 g, 10.1 g, 9.6 g であった。平均の重量を推定せよ(= 重量の母平均を求めよ)。

解答

母平均は標本平均で推定する。 母平均の推定値を $\hat{\mu}$, 標本平均を $m$ として $\hat{\mu} = m = \frac{10.0 + 10.1 + 9.6}{3}=9.9$ gとなる。


t分布

平均 $\mu$ の正規分布にしたがう母集団から、標本として $n$ 個のデータ $X_1, X_2, \cdots, X_n$ を取り出す。 その標本平均を$\displaystyle \overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}$, 不偏分散を $\displaystyle U^2 = \frac{\Sigma_{i=1}^n (X_i - \overline{X})^2}{n-1}$ とすると、 $\displaystyle t=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}}$ は自由度 $n-1$ の t分布にしたがう。


問題 (t分布)

ある製品3個の寿命を測定したところ、120, 140, 160 時間であった。 製品の寿命が正規分布にしたがうとして、 無作意に選んだ製品の寿命が 100 時間未満である確率を求めよ。

解答

$\displaystyle \mbox{標本平均}=\frac{120+140+160}{3}=140$ であるから、$\mbox{母平均の推定値}=140$である。 $\displaystyle \mbox{標本の分散=\frac{(120-140)^2+(140-140)^2+(160-140)^2}{3}} = \frac{800}{3}$ であるが、標本数が少いので $\displaystyle \mbox{不偏分散}=\frac{800}{3-1} = 400$を母分散の推定値とする。 $\mbox{標準偏差} = \sqrt{\mbox{母分散の推定値}} = 20$ であるから、 製品の寿命が100時間以下は $100 \ge 140 + 20 \times x$ より $x \le -2.0となる。$ 標準正規分布で $x=-2$の値は $0.4772+0.5 = 0.9772$であり、これを満たすのは 2.28\%以下であることがわかる。


問題 (t分布)

ある製品3個の寿命を測定したところ、120, 140, 160 時間であった。 製品の寿命が正規分布にしたがうとして、 平均寿命を 90 \% 信頼区間で区間推定せよ。

解答

母分散についての言及がないので、t検定を使う。 母平均が、どの区間にあるのかを考える。 「90\% 信頼区間」とは「区間推定を何度も行ったときに、そのうちの 90 \% は真の値がその区間に含まれる」ことを意味する。

全体で 90 \% ということは、上下 5 \% ずつの区間を取り除くことになる。

母分散が未知のため、母平均 $\mu$ をt分布を用いて区間推定する。 $\displaystyle \mbox{標本平均} = \overline{X} = \frac{120+140+160}{3} = 140$ ,
$\displaystyle \mbox{不偏分散} = U^2 = \frac{(120-\overline{X})^2+(140-\overline{X})^2+(160-\overline{X})^2}{3-1} = \frac{800}{2} = 400$ ,
$\displaystyle t=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} = \frac{140 - \mu}{\sqrt{\frac{400}{3}}}$

90 \% 信頼区間なので、t分布の表で $n=2, \alpha=0.050$ の値を読んで 2.920 である。
$\displaystyle \begin{eqnarray} -2.92 & \le t \le & 2.92 \\ -2.92 & \le \frac{140 - \mu}{\sqrt{\frac{400}{3}}} \le & 2.92 \\ -2.92 \frac{20}{\sqrt{3}} & \le 140 - \mu \le & 2.92 \frac{20}{\sqrt{3}} \\ -33.71725... & \le 140 - \mu \le & 33.71725... \\ 106.2827 & \le \mu \le & 173.7173 \end{eqnarray} $


$\chi^2$ 分布

標準正規分布にしたがう独立な確率変数 $X_1, X_2, \cdots , X_k$ に対して、 $\chi^2 = X_1^2 + X_2^2 + \cdots + X_k^2$ と定義すると、 この $\chi^2$がしたがう分布を「自由度 $k$ の $\chi^2$ 分布」とする。


問題 (仮説検定 $\chi^2$分布)

ある製品3個の寿命を測定したところ、120, 140, 160 時間であった。 製品の寿命が正規分布にしたがうとして、 母分散を 90 \% 信頼区間で区間推定せよ。

解答

寿命の測定値を確率変数 $X$ とすると、$\displaystyle \frac{X-\mu}{\sigma}$ を作れば、 標準正規分布にしたがう。 母平均 $\mu$ は不明なので、標本平均$m = 140$で代用する。
検定統計量 $\chi^2$ は
$\displaystyle \chi^2 = (\frac{120-\mu}{\sigma})^2 + (\frac{140-\mu}{\sigma})^2 + (\frac{160-\mu}{\sigma})^2 = \frac{800}{\sigma^2}$
$\chi^2$ は標本サイズが$n=3$なので自由度 $n-1=2$ の$\chi^2$乗分布にしたがう。

[注意] 「母平均を標本平均で代用した」ために自由度が$n-1$となった。 仮に母平均 $\mu$ がわかっている場合はそのまま母平均を使うので自由度は $n$ となる。

$\chi^2$分布表の表から$n=2, \alpha=0.950$ の場所を読んで 0.103, $n=2, \alpha=0.050$ の場所を読んで 5.99 である。
$\displaystyle \begin{eqnarray} 0.103 & \le \chi^2 \le & 5.99 \\ 0.103 & \le \frac{800}{\sigma^2} \le & 5.99 \\ 0.103 & \le \frac{1}{\sigma^2} \le & 5.99 \\ 7766.9903 & \ge \sigma^2 \ge & 133.5559 \\ \end{eqnarray} $


問題 (仮説検定)

サイコロを10回振ったところ、1の目が8回でた。このサイコロは何か仕組まれていないか、信頼度 99 % で検定せよ。

解答

対立仮説: 「サイコロに何か仕組まれている」
帰無仮説: 「サイコロに何も仕組まれていない」

サイコロの出る目は2項分布にしたがう。 $k$ 回以上1の目が出る確率を $P(X \ge k)$ と表記する。 求める確率 $P(X \ge 8)$ は、2項分布を正規分布 $N(np, np(1-p)) = N(10 \times \frac{1}{6},10\times\frac{1}{6}(1-\frac{1}{6})))$ で近似すると、平均 $\mu=\frac{10}{6}$, 分散 $\sigma^2 = \frac{50}{36}$ であり、
$\displaystyle z = \frac{X - \mu}{\sigma}$ で標準化すると、 $\displaystyle X = z \times \frac{5}{6} \sqrt{2} + \frac{10}{6} \ge 8$
$\displaystyle z \ge \frac{38}{5\sqrt{2}} = 5.374$
である。

[注意]以下の主張を再度確認しておくこと。
$\displaystyle z \ge \frac{38}{5\sqrt{2}} = 5.374 < 21.7 = \chi^2_{n=9}(0.010)$
したがって、 $z$ の可能性は 0.01 より小さい。 すなわち、信頼度 99% (有意水準 1%)で帰無仮説は棄却され、「サイコロに何か仕組まれている」と結論できる。


問題 (t検定)

カタログに「寿命 150 時間」と記載されている製品を3個使用したところ、寿命は 120 時間, 140 時間, 160 時間であった。 カタログに記述は正しいか危険度 1% (有意水準 1%, 信頼度 99%) で検定せよ

解答

対立仮説:製品の寿命は 150時間未満である。
帰無仮説:製品の寿命は 150時間以上である。

製品の寿命は正規分布にしたがうと仮定する。 母分散は未知のため t検定を行う。 標本数は3のため、自由度は2とする。 標本平均は 140, 不偏分散は400なので、検定統計量は $\displaystyle t = \frac{150 - 140}{\sqrt{\frac{400}{3}}} = 0.866 $

[注意]以下の主張を再度確認しておくこと。
上記の$t$の値について、自由度2のt分布表をみると 0.2 以上。 したがって、危険度 1% では帰無仮説は棄却されない。 よってカタログが正しい可能性が残っているので、カタログが間違っているとは主張できない。


Yoshihisa Nitta

http://nw.tsuda.ac.jp/