英文難易度測定

  • 英文 Readability 測定プログラム

CheckRead Ver.1.0, CheckRead Light

構造は似ている。
福井先生のもののほうが、やや手法的に込み入っているか。

間違えたことのメモ集積

誕生日問題の計算

  • http://aoki2.si.gunma-u.ac.jp/Hanasi/StatTalk/omosiro-banasi/tanjoubi.html
  • nCr/nHr で計算すればいいのかな、と思って、 365C50/365H50 をやってみたけれど、あきらかに計算結果が違かった。
  • ※ちなみに、Rで、nCrの計算は choose(n,r) というコマンドでできる。nHrはできないので、 nHr = n+r-1Hr である性質を利用して行う。
  • 発想としては、分母に「とりうる組み合わせのバリエーションのすべて(ただし、順序は入れ替わっても良し)」。分子に「そのなかで、すべての数字が異なる組み合わせの数(ただし、順序は入れ替わっても良し)」という形。

何故これではいけなかったのか?

  • 答えは、 nPr/nrで計算する。
  • おそらく、その点が重要。
  • まず、分母から。
    • nHrだと、重複した組み合わせのバリエーションは出てくるけれども、一つ一つの組み合わせの出る確率が(本当は違うのだが)均等な重み付けになってしまっている。
    • たとえば、サイコロ6つを転がした場合の3つの数字の組み合わせ(順序を気にしない場合は)、6H3=56 だが、
      • この場合、三つゾロ目が 111の出る確率は、1/216。三つゾロ目の組み合わせ合計は111以外にも、6通りあり、3つゾロ目全体がでる確率は6/216となる。
      • 二つゾロ目の112は仮に順序があった場合、121、211という形で出るバリエーションが3つあるので、確率はゾロ目の3倍になり、3/216。二つゾロ目の組み合わせは、6*5=30通りあり、二つゾロ目の確率は、(30*3)/216 = 90/216となる。
      • それぞれ異なる三つの数字 123は、 132,231,213,312,321 とバリエーションが6つあるので出る確率はゾロ目の6倍となり、 6/216。三つゾロ目の組み合わせは、6C3 = 20通り。すべての組み合わせが異なる確率は、(20*6)/216 = 120/216 となる。
      • (異なるn個の数の組み合わせの順列に、いくつのバリエーションが発生するかは、自由度の階乗でも計算できる。3ケタだったら、3!=3*2*1=6)
      • 6+90+120 = 216 となり、6*6*6 と等しくなる。なので分母は、nrでおk。
  • 分子に関しても、同様で、
    • nCrを使ってもよいが、組み合わせがすべて異なる一個ずつの組み合わせは、出る確率をかけてやる必要がある。すなわち、nCr * r!
    • ただし、nCr * r! = nPr なので、 
    • nPr を分母にすればそれで解決する。

統計学系リンク

わかりやすかったお気に入りの統計学系のページなどに自分用リンク

ハンバーガ統計学ハンバーガーショップで学ぶ 楽しい統計学

 ウェブ上で、初心者が、参照するテキストとして具体的なわかりやすさで言うと、素晴らしすぎるのではないか、と。
 わかりやすいだけでなく、実際の計算をどうすればいいのかも、とても良くわかる。
 �瑤箸ǂ凌弇惶Ⅴ罎❹錣ǂ蕕覆唎討癲〼彁擦亮蟒腓❹錣ǂ襦�
 基礎を忘れた時の、復習用に。
 実は、きちんと理解していなかった基礎を、もう一度学び直すために。
 

 初心者にわかりやすい系の統計学系コンテンツだと、
 小島先生の『完全独習 統計学入門』や、高橋信『マンガでわかる統計学』が評判が高いけれども、

 個人的には、それでもわかりにくいところがあったりするので、
 石村先生の『統計学のキソのキ』『統計学のキソのソ』の二冊が、わかりやすさという点では、素晴らしいと思っている。

同志社大学 Rの入門ページ

 初学者に必要なことがひと通り、具体的に書いてある。
 http://mjin.doshisha.ac.jp/R/index.html

 統計学の基礎については、そこまで丁寧にフォローしているわけではないが、
 Rの具体的な操作に紐づけて理解するためには、非常に有用。

統計Tipsメモ集積

このぐらいは覚えておこう!という計算式たち

  • 偏差値の出し方
    • (その人の点数−平均点)/標準偏差×10+50
  • 標本分散(σ²)
    • 標本分散=((データ−平均値)の2乗)の総和÷個数
    • σ²=�堯�xn−m)² ÷ n
  • 標準偏差(σ)
    • 単に、標本分散を√するだけ。
  • t値 = 回帰係数 ÷ 標準誤差

ダミー変数:きれいな線形にならないものを分析する

  • ダミー変数の使い方
    • http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html
    • ちょっと邪道というか、ダミー変数が働くロジックがわからずに、ダミー変数を入れ込んじゃった場合はそれって、かなりヤバイ感じがする。
    • ダミー変数が「季節要因です」とか、きちんと説明できる場合は、話として解りやすく成り立つとは思うけれども…。

相関比を求める

  • nominal scaleで使える。
  • 計算手法は、高橋信『マンガでわかる統計学』p123を参照のこと。

重回帰分析において、目的変数が正規分布していることが必須条件かどうか

不偏分散(unbiased variance)ってなんやねん

  • 不偏分散=((データ−平均値)の二乗)の総和÷(個数-1)
    • 標準偏差のルートする前の状態ってこと…?」と思わせがち。ってか、SPSSだと、不偏分散をルートして、標準偏差にしているし、多くの統計の教科書でも、不偏分散を「標準偏差」と記述しているものがある…
    • …が、標準偏差の前の状態はこちら
  • 標本分散=((データ−平均値)の2乗)の総和÷個数
    • 通常の標準偏差の手前の分散の割り算を「個数(n)」でするけれども、不偏分散は「個数-1」(n-1)です。不偏分散をルートしたものは、「不偏標準偏差」。間違いやすいので注意。

不偏標準偏差はいつ使うのか

標準誤差(SE:Standard Error)

  • http://c4s.blog72.fc2.com/blog-entry-82.html
    • 標準偏差(SD)は標本の状態を説明したい場合に利用し、標準誤差(SE)は母集団の状態を説明したい場合に利用する」
  • http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html
    • 「標準誤差は「標本平均のばらつき」であり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。 そして上式からわかるように、例数が増えれば増えるほど標準誤差が小さくなるため、標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。 これは考えてみれば当然のことであり、「データ数が多いほど実験結果が信頼できるようになる」という常識を裏打ちしています。 つまり標準誤差とは、「ヘタな鉄砲も数射ちゃ当る」という格言を数学的に表現した値。標準誤差は推測統計学独特の指標であり、記述統計学にはありません。」
  • http://oshiete.goo.ne.jp/qa/1514110.html
    • 「ある実験(実験1 とします)でn 個のデータ x1, x2, …, xn を集めたとします。するとその n 個のデータから平均値 m1 と標準偏差 sd1 が得られます(実験1 のデータから計算したという意味で添字 1 を付けます)。
    • さて、通常は n 個のデータを集めて実験は終了し、データの分析となるわけですが、仮に同じ実験をもっと繰り返したと“想像”してみましょう。それらを実験2、実験3、…とします。そうすると通常は実験で得られる測定値というのは様々な誤差を伴いますので、条件を同じにしたとしてもそれぞれの実験で得られる n 個のデータは毎回同じ組み合わせにはならず、従ってそれぞれの実験データから得られる平均値と標準偏差も異なったものになります(これが X が確率変数と呼ばれる所以です)。
    • 実験を z 回繰り返したとすれば、対応して z 個の平均値 m1, m2, …, mz と z 個の標準偏差 sd1, sd2, …, sdz が得られる事になります。とりあえずこの z 個の平均値について考えると、これらをデータとして「平均値の平均値」と「平均値の標準偏差」を求めることができます。“想像”でのことですから、実験は∞回繰り返してみることができて、そのときの「平均値の標準偏差」を統計学では「平均値の標準誤差」と言います。
    • このときもしも、元のデータ x1, x2, …, xn がそれぞれ独立に平均μ、標準偏差σの分布(必ずしも正規分布でなくてもよい)に従っているとすると、「平均値の平均値」はμ、「平均値の標準偏差」即ち「平均値の標準誤差」は σ/ √n になることが分かっています。」

統計でよく使う略式記号

       _
標本平均:x、あるいはm(mean)
標本標準偏差:s
標本分散:s²
標本比率:p
確率変数:X
χ2分布の確率分布:χ
標準偏差:σ(シグマ)※�瑤癲屮轡哀沺廚覆鵑世韻譴匹癲直儆源絜両豺腓�SDってことで…
母平均値:μ(ミュー)
母分散:σ²(シグマ二乗)
母比率:P
有意水準:α
Γ函数:Γ(ガンマ)
母集団での相関係数:ρ(ロー)
ポアソン分布のパラメータで使う:λ(ラムダ)
正規分布の累積分函数:Φ(ファイ)
正規分布の確率密度函数:φ(ファイ)

1σで68%、2σで95%とか言えば覚えるかな…

統計用語を英語で言うと…

http://www.qmss.jp/qmss/glossary/stat-glossary-je.htm

  • クロス表 cross-tabulation
  • 分散 variance
  • 母集団 population
  • 層 stratum
  • 回帰直線 regression line
  • 単回帰 simple regression
  • 重回帰 multiple regression
  • 最小自乗法 least square
  • 回帰方程式 regression equation
  • 回帰係数 regression coefficient
  • 決定係数 coefficient of determination
  • 説明変数 explanatory variable
  • 独立変数 independent variable
  • 従属変数 dependent variable

標本分散はσ^2

 まあ、標本分散をルートしたら、σ(標準偏差)だからね…

統計本についての感想とか集積

あまり、レビューが出ていないものを中心に

  • 京極一樹『ちょっとわかればこんなに役に立つ 統計・確率のほんとうの使い道』2012
    • タイトルが初学者向け…ではあるが、説明は全体的に極めて簡潔で、はじめて学ぶ人向けというよりは、一度学んで「復習用のコンパクトなまとめ本」がほしい、というような用途に非常に適した一冊だという気がした。ちょうど私ぐらいの統計初級者をターゲットとした本としては、素晴らしい。全体的に、まとめ方がすごくわかりやすくて、「初級者向け 統計まとめ本」というジャンルを作るとしたら、個人的には本書がかなりヒット。
    • たとえば、加重平均、算術平均、相加平均などさまざまな平均についての記述がさらっとカイてあったり、二項分布から派生するさまざまな確率分布についての図がわかりやすかったり…と、三中先生の「統計学曼荼羅*1」的なわかりやすさがある。

レベル別整理

  • 統計入門:重要なポイント「統計に興味を持つ」「統計の面白さを知る」
    • ★★☆オススメ:スティーヴン・D・レヴィット/スティーヴン・J・ダブナー『ヤバい経済学 [増補改訂版] 』(2007)(既読)
    • ★★オススメ:神永正博『不透明な時代を見抜く「統計思考力」』2009(既読)
    • 神永正博『未来思考 10年先を読む「統計力」』2010(既読)
    • ★★オススメ:イアン・エアーズ『その数学が戦略を決める』山形 浩生訳 (2007)(パラ読み)
  • 統計基礎:ポイント:自分で統計処理ができるようになること。じっくり立ち向かうための基礎力養成教科書。
    • (数学苦手な人向け)
      • ★超簡単でオススメ:石村 貞夫、石村 光資郎『統計学の基礎のキ 分散と相関係数編』『統計学の基礎のソ 正規分布とt分布編』(2012) (パラ読み)
      • ★超簡単:高橋信『マンガでわかる統計学』シリーズ(パラ読み)
      • ★簡単。定評高し。:小島 寛之『完全独習 統計学入門』(パラ読み)
  • 統計、次の一歩へすすむための本
    • -

T値とP値

http://okwave.jp/qa/q3337743.html

Q:仮説検定について勉強中なのですが、t値とp値の違いが未だによく分かりません。

A:できれば、Rなどのt分布を簡単に描くことができ、t値からp値を、p値からt値を求められる関数機能をもった統計ソフトを使用すると良いです。基本的に自分で図を描いて確認しないと分かりにくいです。

いい答えだ…

もう少し丁寧な答え

A:t値とは横軸の値のこと。p値とは面積(=確率)のこと。

例えば、自由度10のt分布は、横軸は0を中心として左方向(マイナス方向)へ-1, -2, -3, -4とあり、逆に右方向(プラス方向)へ1, 2, 3, 4と広がっていますよね?この横軸の値がいわゆるt値であるわけです。

一方、p値とは、例えば「t=0のとき、上側確率(つまり0よりも右半分の面積のこと)は0.5」なわけで、この0.5という値がp値です。