統計学のノート

変数の種類 2013/11/18

量的変数
- テストの点数などの数値で表わされるもの
- 四則演算など(→平均など)の計算ができる
質的変数
- 性別、都道府県など数値ではなく選択肢の中からいずれかを選択されたもの
- とくに選択肢が2つのものを二値変数という
- IDの類は数字での表現だとしても質的変数
- 四則演算の計算ができない

データの散らばり具合を見る指標。

標本分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})^{2} }{n} \]
- 記述統計: テストの点数の統計など、すべてのデータが揃っている場合
不偏分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})^{2} }{n - 1} \]
- 推測統計: テレビの視聴率の調査など、母集団の一部のみを分析して母集団を推測する場合
- R言語では var 関数
標準偏差(不偏分散の平方根)
- \[ \sqrt{ \frac{ \sum_{i} (x_{i} - \overline{x})^{2} }{n - 1} } \]
- R言語では sd 関数
平均偏差
- \[ \frac{ \sum_{i} \left| x_{i} - \overline{x} \right| }{n} \]
範囲(レンジ)
- \( 最大値 - 最小値 \)

平均と標準偏差が特定の値になるようにすべてのデータの値を変換すること。

相関
- 複数の量的変数の間での関連の強さ
- 必ずしも因果関係ではないことに注意
- 正の相関: xが大きいほどyが大きい
- 負の相関: xが大きいほどyが小さい
- 無相関: xとyに関連がない
連関
- 複数の質的変数の間での関連の強さ
散布図
- 相関を視覚的に確認するには散布図がよい
- R言語で作図するには plot 関数を使う
共分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})(y_{i} - \overline{y}) }{n} \]
不偏共分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})(y_{i} - \overline{y}) }{n - 1} \]
- R言語では cov
相関係数
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})(y_{i} - \overline{y}) }{ \sqrt{ \sum_{i} (x_{i} - \overline{x})^2 \sum_{i} (y_{i} - \overline{y})^2 } } \]
- -1から+1までの間の数になる
- R言語では cor
- \( > 0 \): 正の相関
- \( < 0 \): 負の相関
- \( = 0 \): 無相関
- 1または-1に近いほど強い相関
クロス集計
- 2つの二値の質的変数の関係を表にしたもの
- R言語では table
ファイ係数
- 2つの質的変数をそれぞれ0または1に置き換えて相関係数を計算したもの