統計学のノート
変数の種類 2013/11/18
- 量的変数
- テストの点数などの数値で表わされるもの
- 四則演算など(→平均など)の計算ができる
- 質的変数
- 性別、都道府県など数値ではなく選択肢の中からいずれかを選択されたもの
- とくに選択肢が2つのものを二値変数という
- IDの類は数字での表現だとしても質的変数
- 四則演算の計算ができない
度数とヒストグラム 2013/11/05
- 度数
- 変数の値の範囲ごとにデータの個数を数えたもの
- ヒストグラム
- 度数分布を隙間のない棒グラフにしたもの
代表値 2013/11/06
- 平均値
- \[ \overline{x} = \frac{ \sum_{i} x_{i} }{n} \]
- R言語では
mean
関数
- 中央値
- 数値の大小の順に並べたときに真ん中に位置する値
- データの数が偶数の場合は中間をとる
- R言語では
median
関数
- 最頻値
散布度 2013/11/06
データの散らばり具合を見る指標。
- 標本分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})^{2} }{n} \]
- 記述統計: テストの点数の統計など、すべてのデータが揃っている場合
- 不偏分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})^{2} }{n - 1} \]
- 推測統計: テレビの視聴率の調査など、母集団の一部のみを分析して母集団を推測する場合
- R言語では
var
関数
- 標準偏差(不偏分散の平方根)
- \[ \sqrt{ \frac{ \sum_{i} (x_{i} - \overline{x})^{2} }{n - 1} } \]
- R言語では
sd
関数
- 平均偏差
- \[ \frac{ \sum_{i} \left| x_{i} - \overline{x} \right| }{n} \]
- 範囲(レンジ)
- \( 最大値 - 最小値 \)
標準化 2013/11/05
平均と標準偏差が特定の値になるようにすべてのデータの値を変換すること。
2つの変数の記述統計 2013/11/06
- 相関
- 複数の量的変数の間での関連の強さ
- 必ずしも因果関係ではないことに注意
- 正の相関: xが大きいほどyが大きい
- 負の相関: xが大きいほどyが小さい
- 無相関: xとyに関連がない
- 連関
- 複数の質的変数の間での関連の強さ
- 散布図
- 相関を視覚的に確認するには散布図がよい
- R言語で作図するには
plot
関数を使う
- 共分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})(y_{i} - \overline{y}) }{n} \]
- 不偏共分散
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})(y_{i} - \overline{y}) }{n - 1} \]
- R言語では
cov
- 相関係数
- \[ \frac{ \sum_{i} (x_{i} - \overline{x})(y_{i} - \overline{y}) }{ \sqrt{ \sum_{i} (x_{i} - \overline{x})^2 \sum_{i} (y_{i} - \overline{y})^2 } } \]
- -1から+1までの間の数になる
- R言語では
cor
- \( > 0 \): 正の相関
- \( < 0 \): 負の相関
- \( = 0 \): 無相関
- 1または-1に近いほど強い相関
- クロス集計
- 2つの二値の質的変数の関係を表にしたもの
- R言語では
table
- ファイ係数
- 2つの質的変数をそれぞれ0または1に置き換えて相関係数を計算したもの
母集団と標本 2013/11/18
- 母集団
- データ全体
- 標本
- 母集団に対して統計をとるために一部を抽出したもの
- 推測統計
- テレビの視聴率の調査など、母集団の一部のみ(標本)を分析して母集団を推測する場合
- 推測統計の分類
- 推定
- 点推定
- 区間推定
- 検定
- 推定
- 点推定
- 標本から母集団のある統計的指標を推定すること
- 例えば、標本の平均を計算すると、この値は母集団の平均を点推定したものになる