統計Tipsメモ集積
このぐらいは覚えておこう!という計算式たち
ダミー変数:きれいな線形にならないものを分析する
- ダミー変数の使い方
- http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html
- ちょっと邪道というか、ダミー変数が働くロジックがわからずに、ダミー変数を入れ込んじゃった場合はそれって、かなりヤバイ感じがする。
- ダミー変数が「季節要因です」とか、きちんと説明できる場合は、話として解りやすく成り立つとは思うけれども…。
相関比を求める
- nominal scaleで使える。
- 計算手法は、高橋信『マンガでわかる統計学』p123を参照のこと。
重回帰分析において、目的変数が正規分布していることが必須条件かどうか
- http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1283089632
- 「最小二乗法を適用するだけなら,正規性の仮定は全く不要です。その後,検定や推定を伴う議論で,正規性の仮定が必要となってくるのです。」
不偏分散(unbiased variance)ってなんやねん
不偏標準偏差はいつ使うのか
標準誤差(SE:Standard Error)
- http://c4s.blog72.fc2.com/blog-entry-82.html
- 「標準偏差(SD)は標本の状態を説明したい場合に利用し、標準誤差(SE)は母集団の状態を説明したい場合に利用する」
- http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html
- http://oshiete.goo.ne.jp/qa/1514110.html
- 「ある実験(実験1 とします)でn 個のデータ x1, x2, …, xn を集めたとします。するとその n 個のデータから平均値 m1 と標準偏差 sd1 が得られます(実験1 のデータから計算したという意味で添字 1 を付けます)。
- さて、通常は n 個のデータを集めて実験は終了し、データの分析となるわけですが、仮に同じ実験をもっと繰り返したと“想像”してみましょう。それらを実験2、実験3、…とします。そうすると通常は実験で得られる測定値というのは様々な誤差を伴いますので、条件を同じにしたとしてもそれぞれの実験で得られる n 個のデータは毎回同じ組み合わせにはならず、従ってそれぞれの実験データから得られる平均値と標準偏差も異なったものになります(これが X が確率変数と呼ばれる所以です)。
- 実験を z 回繰り返したとすれば、対応して z 個の平均値 m1, m2, …, mz と z 個の標準偏差 sd1, sd2, …, sdz が得られる事になります。とりあえずこの z 個の平均値について考えると、これらをデータとして「平均値の平均値」と「平均値の標準偏差」を求めることができます。“想像”でのことですから、実験は∞回繰り返してみることができて、そのときの「平均値の標準偏差」を統計学では「平均値の標準誤差」と言います。
- このときもしも、元のデータ x1, x2, …, xn がそれぞれ独立に平均μ、標準偏差σの分布(必ずしも正規分布でなくてもよい)に従っているとすると、「平均値の平均値」はμ、「平均値の標準偏差」即ち「平均値の標準誤差」は σ/ √n になることが分かっています。」
統計でよく使う略式記号
_
標本平均:x、あるいはm(mean)
標本標準偏差:s
標本分散:s²
標本比率:p
確率変数:X
χ2分布の確率分布:χ
母標準偏差:σ(シグマ)※�瑤癲屮轡哀沺廚覆鵑世韻譴匹癲直儆源絜両豺腓�SDってことで…
母平均値:μ(ミュー)
母分散:σ²(シグマ二乗)
母比率:P
有意水準:α
Γ函数:Γ(ガンマ)
母集団での相関係数:ρ(ロー)
ポアソン分布のパラメータで使う:λ(ラムダ)
正規分布の累積分布函数:Φ(ファイ)
正規分布の確率密度函数:φ(ファイ)
1σで68%、2σで95%とか言えば覚えるかな…
統計用語を英語で言うと…
http://www.qmss.jp/qmss/glossary/stat-glossary-je.htm
- クロス表 cross-tabulation
- 分散 variance
- 母集団 population
- 層 stratum
- 回帰直線 regression line
- 単回帰 simple regression
- 重回帰 multiple regression
- 最小自乗法 least square
- 回帰方程式 regression equation
- 回帰係数 regression coefficient
- 決定係数 coefficient of determination
- 説明変数 explanatory variable
- 独立変数 independent variable
- 従属変数 dependent variable
標本分散はσ^2
まあ、標本分散をルートしたら、σ(標準偏差)だからね…