第12回 (統計学第1回) 確率論入門 / 確率変数・確率分布 / ベイズの定理
このページはプログラマのための数学勉強会を聴講したときの個人的なノートである。
第12回プログラマのための数学勉強会(2013/11/28)の資料
http://nineties.github.io/math-seminar/12.html
第12回プログラマのための数学勉強会(2013/11/28)の動画
http://www.youtube.com/watch?v=Mr4zVl3NiXM
http://www.youtube.com/watch?v=0dlAtEJC3CE
http://www.youtube.com/watch?v=_sEgIcniBfo
確率論入門 2013/11/28
http://nineties.github.io/math-seminar/12.html#/3
- 解釈論
- 解釈1
組合せ論的確率
http://nineties.github.io/math-seminar/12.html#/6- 6分の1という確率は「同様に確からしい」
- 解釈2
統計的確率
http://nineties.github.io/math-seminar/12.html#/9- \(n\)回試行したら\(\frac{n}{6}\)回程度
- これらは客観的に定まるので客観的確率ともいう
http://nineties.github.io/math-seminar/12.html#/10 - 頻度主義ともいう
http://nineties.github.io/math-seminar/12.html#/10 - プログラマが計算したい確率の多くは統計的確率
- 解釈3
主観的確率
ベイズ主義
http://nineties.github.io/math-seminar/12.html#/11- 「確信度」
- サイコロが歪であることを知っている人にとっての確率は\(\frac{1}{6}\)ではない
- ex) Aさんが商品1を買ってくれる確率
http://nineties.github.io/math-seminar/12.html#/13 - ex) 天気予報の降水確率
- 解釈1
- http://nineties.github.io/math-seminar/12.html#/14
- 頻度主義に基づく推計統計学
- ベイズ主義に基づくベイズ統計学
公理的確率論 2013/12/02
http://nineties.github.io/math-seminar/12.html#/15
- 「もし\(P(A)\)を\(A\)の確率と呼ぶのならば,\(P\)はどういった性質を満たすべきか?」
http://nineties.github.io/math-seminar/12.html#/15
性質を公理として記述 - 事象 -> 数学的には集合
- 余事象 -> 補集合
http://nineties.github.io/math-seminar/12.html#/20- 補集合を \( A^c \) と書く
- \[ A^c = { x \in \Omega | x \not\in A } \]
- 和事象 -> 和集合
http://nineties.github.io/math-seminar/12.html#/21- \( A \cup B \)
- 積事象 -> 積集合
http://nineties.github.io/math-seminar/12.html#/22- \( A \cap B \)
- ド・モルガンの法則
http://nineties.github.io/math-seminar/12.html#/24- 積集合は和集合・補集合の組み合わせで表せる
http://nineties.github.io/math-seminar/12.html#/25
- 積集合は和集合・補集合の組み合わせで表せる
- 排反
http://nineties.github.io/math-seminar/12.html#/26- \(A\)と\(B\)が排反というのは \[ A \cap B = \phi \]
- つまり、集合\(A,B\)が互いに素
- 部分集合の集合
http://nineties.github.io/math-seminar/12.html#/27- \( \mathcal{F} \)
- 例えば \( \mathcal{F} = 2^{\Omega} \)
- 完全加法族 (シグマ加法族)
http://nineties.github.io/math-seminar/12.html#/29- \[ \mathcal{F} \not= \phi \] つまり、少なくとも1つ事象が存在する
- \[ A \in \mathcal{F} \ \text{ならば} \ A^c \in \mathcal{F} \] つまり、事象\(A\)に対して,その余事象を考える事ができる
- \[ A_1, A_2, \cdots \in \mathcal{F} \ \text{ならば} \ \bigcup_{i=1}^{\infty} A_i \in \mathcal{F} \] つまり、事象 \(A_1,A_2,\cdots\) に対して,それらの和事象を考える事ができる
- ボレル集合族
http://nineties.github.io/math-seminar/12.html#/32- \( \mathcal{B}(\mathbb{R}) \)
- \( \mathcal{B}(\mathbb{R}^n) \)
- 確率空間
http://nineties.github.io/math-seminar/12.html#/33- 数学的な確率の定義
- \( (\Omega, \mathcal{F}, P) \)
- 有限加法性
http://nineties.github.io/math-seminar/12.html#/37 - 測度
http://nineties.github.io/math-seminar/12.html#/38 - 確率の加法定理
http://nineties.github.io/math-seminar/12.html#/40 - 確率測度の例
- 確率0とは / 確率1とは
http://nineties.github.io/math-seminar/12.html#/45- \( P(A) = 0 \) は事象\(A\)が起こらないという事ではない
- \( P(A) = 1 \) は事象\(A\)が絶対に起こるという事ではない
確率変数・確率分布 2013/12/22
http://nineties.github.io/math-seminar/12.html#/46
- 確率変数
http://nineties.github.io/math-seminar/12.html#/47 - 確率分布
http://nineties.github.io/math-seminar/12.html#/49 - 確率密度関数
http://nineties.github.io/math-seminar/12.html#/50- \[ P((a, b)) = \int_a^b \rho(x) \mathrm{d}x \] \( (a, b) \) は \( \mathbb{R} \) の中の開区間
- 多次元の場合は重積分になる
- 離散的な確率分布の場合: 確率質量関数
http://nineties.github.io/math-seminar/12.html#/52
- 期待値
- 離散的な確率分布の場合
http://nineties.github.io/math-seminar/12.html#/53- \[ E[f(X)] = \sum_i f(x_i) p_i \]
- 連続的な確率分布の場合
http://nineties.github.io/math-seminar/12.html#/55- \[ E[f(X)] = \int_{-\infty}^{+\infty} f(x) \rho(x) \mathrm{d}x \]
- 離散的な確率分布の場合
- 平均
http://nineties.github.io/math-seminar/12.html#/57- 期待値 \( E[X] \) のことで、\( \mu \) と書く
- 分散
http://nineties.github.io/math-seminar/12.html#/57- \( E[(X - \mu) ^ 2] \) のことで、\( V[X] \) と書く
- 標準偏差
http://nineties.github.io/math-seminar/12.html#/57
- \( \sqrt{V[X]} \) のことで \( \sigma[X] \) と書く
- 期待値の線形性
http://nineties.github.io/math-seminar/12.html#/60- \[ E[aX + bY] = aE[X] + bE[Y] \]
- 分散の計算公式
http://nineties.github.io/math-seminar/12.html#/60- \[ V[X] = E[(X - \mu) ^ 2] = E[X^2] - (E[X])^2 \]
同時確率・ベイズの定理 2013/12/22
http://nineties.github.io/math-seminar/12.html#/61
- 同時確率, 同時確率密度関数
http://nineties.github.io/math-seminar/12.html#/62- 同時確率密度関数
- \( \rho(x_1, x_2, \cdots) \)
- 同時確率密度関数
- 周辺化
http://nineties.github.io/math-seminar/12.html#/63- 離散的な確率分布の場合
- \[ P(X \in A) = \int_A \int_{-\infty}^{+\infty} \rho(x, y) \mathrm{d}y \mathrm{d}x \]
- いったん同時確率を求めてから周辺化して求めたい確率を計算する、ということがよく行われる
- 周辺化を使った計算は計算量がとても多い
- 「事象の独立性」を使って周辺化する変数の数を減らしたり モンテカルロ法などの積分法を使う必要がある
- 離散的な確率分布の場合
- 条件付き確率
http://nineties.github.io/math-seminar/12.html#/68- \[ P(B|A) = \frac{P(A, B)}{P(A)} \] を \( A \) という条件のもとでの \( B \) の条件付き確率という
- 条件付き確率のサイコロでの例 -> 主観的確率
http://nineties.github.io/math-seminar/12.html#/70 - 確率の乗法定理
http://nineties.github.io/math-seminar/12.html#/71- \[ P(A, B) = P(A) P(B|A) \]
- 独立性
http://nineties.github.io/math-seminar/12.html#/72- \[ P(A \cap B) = P(A) P(B) \] が成立するとき、\( A \) と \( B \) が独立であるという
- つまり \[ P(B) = P(B|A) \] \( A \) が起きたという情報を得たところで \( B \) の確率(確信度)が変わらない
- ベイズの定理
http://nineties.github.io/math-seminar/12.html#/73- \[ P(B|A) = \frac{P(B)P(A|B)}{P(A)} \]
- 名前から類推されるベイズ主義(主観的確率)とは無関係
- とはいえ主観的確率の計算で利用されることが多い
- 事前確率(\(P(B)\)) -> 事後確率(\(P(B|A)\))
- \( A \) が生じたという情報を得たことで \( B \) の確率(確信度)が変わること
- \[ P(B|A) = P(B) \times \frac{P(A|B)}{P(A)} \]
- 周辺化を使った変形
http://nineties.github.io/math-seminar/12.html#/76- \[ P(B_j|A) = \frac{P(B_j)P(A|B_j)}{\sum_i P(B_i)P(A|B_i)} \]
- がん診断の例
http://nineties.github.io/math-seminar/12.html#/77- 自分ががんなのかどうかという、とても主観的な確率
情報エントロピー 2013/12/22
http://nineties.github.io/math-seminar/13.html#/3
※情報エントロピーの話は次の回の最初でも改めて説明されている。
- 情報量
http://nineties.github.io/math-seminar/13.html#/5- 情報量の大きいデータを解析することに価値がある
- 情報量の小さいデータを解析してもマシンパワーが無駄なだけ
- 情報量 \( I(A) \)
http://nineties.github.io/math-seminar/13.html#/7- \[ I(A) = -\log P(A) \] \( \log \) の底はなんでもよい
- 情報エントロピー(シャノン情報量)
http://nineties.github.io/math-seminar/13.html#/10- \[ H(X) = - \sum_i P(X = x_i) \log P(X = x_i) \]
- 連続的な確率分布の場合の情報エントロピー
- \[ h(x) = - \int_{-\infty}^{+\infty} \rho(x) \log \rho(x) \mathrm{d}x \]
- ただしこれはシャノン情報量とは言わない