統計Tipsメモ集積

このぐらいは覚えておこう!という計算式たち

  • 偏差値の出し方
    • (その人の点数−平均点)/標準偏差×10+50
  • 標本分散(σ²)
    • 標本分散=((データ−平均値)の2乗)の総和÷個数
    • σ²=�堯�xn−m)² ÷ n
  • 標準偏差(σ)
    • 単に、標本分散を√するだけ。
  • t値 = 回帰係数 ÷ 標準誤差

ダミー変数:きれいな線形にならないものを分析する

  • ダミー変数の使い方
    • http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html
    • ちょっと邪道というか、ダミー変数が働くロジックがわからずに、ダミー変数を入れ込んじゃった場合はそれって、かなりヤバイ感じがする。
    • ダミー変数が「季節要因です」とか、きちんと説明できる場合は、話として解りやすく成り立つとは思うけれども…。

相関比を求める

  • nominal scaleで使える。
  • 計算手法は、高橋信『マンガでわかる統計学』p123を参照のこと。

重回帰分析において、目的変数が正規分布していることが必須条件かどうか

不偏分散(unbiased variance)ってなんやねん

  • 不偏分散=((データ−平均値)の二乗)の総和÷(個数-1)
    • 標準偏差のルートする前の状態ってこと…?」と思わせがち。ってか、SPSSだと、不偏分散をルートして、標準偏差にしているし、多くの統計の教科書でも、不偏分散を「標準偏差」と記述しているものがある…
    • …が、標準偏差の前の状態はこちら
  • 標本分散=((データ−平均値)の2乗)の総和÷個数
    • 通常の標準偏差の手前の分散の割り算を「個数(n)」でするけれども、不偏分散は「個数-1」(n-1)です。不偏分散をルートしたものは、「不偏標準偏差」。間違いやすいので注意。

不偏標準偏差はいつ使うのか

標準誤差(SE:Standard Error)

  • http://c4s.blog72.fc2.com/blog-entry-82.html
    • 標準偏差(SD)は標本の状態を説明したい場合に利用し、標準誤差(SE)は母集団の状態を説明したい場合に利用する」
  • http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html
    • 「標準誤差は「標本平均のばらつき」であり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。 そして上式からわかるように、例数が増えれば増えるほど標準誤差が小さくなるため、標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。 これは考えてみれば当然のことであり、「データ数が多いほど実験結果が信頼できるようになる」という常識を裏打ちしています。 つまり標準誤差とは、「ヘタな鉄砲も数射ちゃ当る」という格言を数学的に表現した値。標準誤差は推測統計学独特の指標であり、記述統計学にはありません。」
  • http://oshiete.goo.ne.jp/qa/1514110.html
    • 「ある実験(実験1 とします)でn 個のデータ x1, x2, …, xn を集めたとします。するとその n 個のデータから平均値 m1 と標準偏差 sd1 が得られます(実験1 のデータから計算したという意味で添字 1 を付けます)。
    • さて、通常は n 個のデータを集めて実験は終了し、データの分析となるわけですが、仮に同じ実験をもっと繰り返したと“想像”してみましょう。それらを実験2、実験3、…とします。そうすると通常は実験で得られる測定値というのは様々な誤差を伴いますので、条件を同じにしたとしてもそれぞれの実験で得られる n 個のデータは毎回同じ組み合わせにはならず、従ってそれぞれの実験データから得られる平均値と標準偏差も異なったものになります(これが X が確率変数と呼ばれる所以です)。
    • 実験を z 回繰り返したとすれば、対応して z 個の平均値 m1, m2, …, mz と z 個の標準偏差 sd1, sd2, …, sdz が得られる事になります。とりあえずこの z 個の平均値について考えると、これらをデータとして「平均値の平均値」と「平均値の標準偏差」を求めることができます。“想像”でのことですから、実験は∞回繰り返してみることができて、そのときの「平均値の標準偏差」を統計学では「平均値の標準誤差」と言います。
    • このときもしも、元のデータ x1, x2, …, xn がそれぞれ独立に平均μ、標準偏差σの分布(必ずしも正規分布でなくてもよい)に従っているとすると、「平均値の平均値」はμ、「平均値の標準偏差」即ち「平均値の標準誤差」は σ/ √n になることが分かっています。」

統計でよく使う略式記号

       _
標本平均:x、あるいはm(mean)
標本標準偏差:s
標本分散:s²
標本比率:p
確率変数:X
χ2分布の確率分布:χ
標準偏差:σ(シグマ)※�瑤癲屮轡哀沺廚覆鵑世韻譴匹癲直儆源絜両豺腓�SDってことで…
母平均値:μ(ミュー)
母分散:σ²(シグマ二乗)
母比率:P
有意水準:α
Γ函数:Γ(ガンマ)
母集団での相関係数:ρ(ロー)
ポアソン分布のパラメータで使う:λ(ラムダ)
正規分布の累積分函数:Φ(ファイ)
正規分布の確率密度函数:φ(ファイ)

1σで68%、2σで95%とか言えば覚えるかな…

統計用語を英語で言うと…

http://www.qmss.jp/qmss/glossary/stat-glossary-je.htm

  • クロス表 cross-tabulation
  • 分散 variance
  • 母集団 population
  • 層 stratum
  • 回帰直線 regression line
  • 単回帰 simple regression
  • 重回帰 multiple regression
  • 最小自乗法 least square
  • 回帰方程式 regression equation
  • 回帰係数 regression coefficient
  • 決定係数 coefficient of determination
  • 説明変数 explanatory variable
  • 独立変数 independent variable
  • 従属変数 dependent variable

標本分散はσ^2

 まあ、標本分散をルートしたら、σ(標準偏差)だからね…