2013-04-30

R関係の使い手のありそうなライブラリやアドオンなど

Rのライブラリのインストールは想像以上にお手軽で感動する。だって、コマンド二行ぐらいで、全部済むんだぜ…？
下手なゲームのパッチ当てとかよりも簡単…。恐ろしい子…。だいたいミラーサーバーどんだけあるんだよ…。

■1.サーバーへアクセスせよ　chooseCRANmirror()　#サーバーを選んだら、あとは、追加パッケージを指定するだけ…！

とりあえず、chooseCRANmirror()　とコマンドして、近場のサーバーを選ぶべし。

■2.いろいろなパッケージがあるので、コマンド一行！それだけだ！

SVM

選択肢その１：kernlab
- install.packages( "kernlab" )
  - 参考http://d.hatena.ne.jp/yutakikuchi/20120827/1346024147
選択肢その２"e1071"
- install.packages('e1071')
  - 参考：http://d.hatena.ne.jp/kj-ki/20120117/p1

3次元散布図

install.packages("rgl")
install.packages("scatterplot3d")
参考：http://www.kkaneko.com/rinkou/r/rscatterplot3d.html

■3.あと、ライブラリとして読み込んどこうぜ。

library(rgl) #これで、ライブラリとして組み込まれる。

2013-04-23

因果・相関系初歩＋α：メモ　おもに林先生のブログの感想メモ的なエントリ

（注：コメントを書いている人間は初学者ではギリギリない程度の統計素人です）

４つのよくある間違い

Take a Risk: 林岳彦の研究メモ：■[統計][リスク]因果関係がないのに相関関係があらわれる４つのケースをまとめてみたよ（質問テンプレート付き）
- http://d.hatena.ne.jp/takehiko-i-hayashi/20130418/

とても丁寧でいい記事だった。より短くまとめると、こんな感じが。すべて初学者向けではあるものの、交絡関係の削除の仕方だけ、ちょっと難度が高いように思う。Rで「^2」でエイヤッとかってやっちゃってるけれども、なかなか私なんかには難しい。

1:偶然によるもの【→対処方法】ランダムサンプリングでサンプル数を増やべし
2:因果の流れが逆【→対処方法】対象分野の知識を増やす。もっと観察する。
3:因果の上流に共通の要因【→対処方法】交互関係を削除。統制群をきちんとやる。独立性のない変数をむやみにぶちこみ過ぎない。傾向スコア法、^2とか…
4:因果の合流点において選抜／層別／調整されてしまっている（選択バイアス）【→対処方法】サンプリング方法自体を見直して、想定する母集団に近いものを作る

　1（偶然）,4（選択バイアス）は、サンプリングの問題で、1は、まあ多くの人が知っている。「4」については、統計をほんとに少ししか勉強したことのない人が理解していないことが多く、よくいらっとすることがある。「なんでサンプル数を増やさないの？」「サンプル数増やせよ」あるいは、「サンプル数が多いから問題ない」みたいな、言い方をしてくる人がけっこう多くて萎える。サンプル数を増やすだけでは解決しないサンプリングの問題がある、だなんて話は実際に調査設計を数回やったことのある人だったら、嫌でも感覚的に理解できる話だと思うのだが、「サンプル数の数」だけを元に、ツッコミを偉そうにしてくる人はまあ実践的には触れていないのだろうな、と。まあ、どんな分野でもそうだけれども、実践をやったことのない人がやりがちな偉そうなdisだと思う。そして、何よりも、実際には理想的なランダムサンプリングが不可能な場合は多い（…というか、社会調査の場合などはランダムサンプリングをできただけで万々歳だと思う。個人情報保護法が手厳しくなってきたため、社会調査で、選択バイアスを下げた調査をやるのはどんどんと厳しくなってきた。）
　2（因果が逆）,3（交絡因子）は、いずれも対象分野の知識が多ければ精度はあがりますよね、という話にかかっている。2：因果が逆というのは詳しく観察したりすることで実際にどうにかなることが多いと思うが、3：交絡因子の問題は悩ましい。変数の独立性がきっちりとわかっていたら、まあ、元から重回帰分析にかけたりしないわけで、とりあえず変数をぶっこんでしまいたくなる罠というのはある。独立した変数だけをうまく抽出してくるというのは、実際にはかなり難しい場合が多いと思っていた。というか、難しい。

交絡因子について対応策を練るのは難しい

　ただ、くだんの記事がインフォーマティヴだったのは、交絡因子についてもいろいろと対処法は開発されているのですよ、という話。へぇ、そうなのか、と思ってちょっとググってみたものを、ざっとリストすると、こんな感じか。

交絡因子排除の方法１：ケースコントロール研究（case-control studies）
交絡因子排除の方法２：コホート研究（cohort studies）
交絡因子排除の方法３：層化（stratification）

　ケースコントロールという名前がついているのは「１」だけだが、いずれも、群のコントロールに関する話で、まあ「実験・調査計画の段階できっちりしようぜ？な？」という、研究を学んだ人であれば、いつも言われる例のアレの一種だった.
*1

プラシーボ効果を排除するための二重盲検法なんかもここに入るのだろうか。要するに群のコントロールというか、データをとれた後に操作するのではなく、そもそものデータサンプリングの段階でがんばりゃにゃどうしようもないという

　ということで、交絡因子の排除の話は、背景知識（と実験・調査計画能力）を土台にしてサンプリングをするということで、背景知識とサンプリングの知識の双方がわかっていないとダメな例ではある。

問題は、っつーか、ちょっとあとでじっくり読み直したいのはこち

交絡因子排除の方法４：バックドア基準

http://d.hatena.ne.jp/takehiko-i-hayashi/20120625/1340611310

　これはあとでじっくり読もう。（読んだ後に更新します。）

勉強になったところ

勉強になったところというか、パワポみながらのメモ。
下記は、林先生のパワポの表記をところどころもってきているので、林先生ごめんなさい。

統計的因果推論の系譜は、Judea Pearlのベイジアンネットワーク系の話と、Donald Rubinの欠損値の枠組みをめぐる話とで、二系統があるらしい。
Judea Pearlの話はベイジアンなので、事前確率と事後確率の…そう、何度見てもピンとこない
- p(y|x=30)みたいな表記。
- ちなみにベイジアンでよく見るこの表記の意味はWikipediaさんから一部コピペして復習すると、
  - P(B) = 事象Aが起きる前の、事象Bの確率（事前確率, prior probability）
  - P(B|A) = 事象Aが起きた後での、事象Bの確率（事後確率，条件付き確率, posterior probability，conditional probability）
という意味。要するにp(y|x=30)　を日常用語でいうと、「事象xが30であった場合の、事象yの確率」ということになる。
- で、Judea Pearlは、このベイズのよくある表記をさらに改変！
- p(y|x=30)という表記を、p(y|do(x=30))としてみた。
- これは、「xが30であるとき」から、「xを30に変えたとき」という意味らしい。
- 何が違うのかというと、交絡要因を明確化するものなんだという。
- （※ようするに、交絡要因が別途にあるという場合には、xが30として変化させた場合には単なる擬似相関だから、yの確率には影響しない。因果の場合は、xを30に変化させた場合にはyが変化することになる、みたいな話か？）
- p(y|x=30)≠p(y|do(x=30))　という表記で、「相関と因果が一致しない」
- p(y|x=30)=p(y|do(x=30))　という表記で「見かけ上の相関から因果効果を判断してOK」　
- （※なんか、記号論理学者とか、分析哲学系の表記みてるときのような気分だなぁ。まあ、これは、なんか単なる表記上の問題）
で、問題は交絡因子の取り除き方なわけだが、4つのケースが紹介されている。
- 1.実験計画法に基づき実験する→要するによくある、統制群とかちゃんと考えろやという話
- 2.均一化・無作為化を念頭にサンプルする
- 3.層別化・マッチング（交絡変数の値が似たもの同士で比較）：予め変数を予測出来ればね…という話である。
- 4.統計モデルに交絡変数を組み込む　例：重回帰で説明変数を追加する…→で、ここでバックドア基準の話になる。
で、重回帰の説明。
スライド33枚めが良い感じ。重回帰式は単純に、説明変数A,B,Cが等しく、目的変数Yに効いているよね、というごく素朴なモデルの立て方になっている。…が、交絡要因があるケースや、説明変数自体が、別のものの目的変数であるようなモデルの立て方とかそういうものが、ぜんぶ一括して説明変数にしてしまう、という方法になっている。本当は、偏回帰係数の"意味"は、背後の因果構造に依存しますよね、となるほど。
バックドア基準とはずばり「偏回帰係数＝説明変数を１単位変化させた時の因果効果」となる条件はp(y|A=・)=p(y|do(A=・))　である、と。このような場合に、選ばれた変数群がバックドア基準を満たしていると言えるだろうと。
39枚目。下流側の中間変量を選ばない、合流点での変量を選ばないことが重要である、と。まあ、あたりまえではある。これは、対象ドメインの背景知識を知ってるかどうかだな。
40枚目。合流点も入れてはいけない、と。これには合流点バイアス colider biasという言葉があるらしい。
41枚目、多重共線性の話。（変数の出し入れにより、回帰係数が大きく変化する）：２系統ある。第一の系統は数理統計的なもの。VIFによる診断と変数の除去というのがあるけれども、こっちのやり方はあまり良くないのではないか、というのが林先生の意見。で、第二の系統は、交絡によるバイアスで、これをバックドア基準による変数選択でなんとかしましょう、と。
43枚目、「未知の交絡要因」を減らしていくこと自体が研究の進歩である、というこれはいい話。ただ、複雑系の話とかになっちゃうと、変数間の循環性が存在していることこそが、現象を成り立たせている、みたいな話になるから、世界観がまたちょっと変わってくるような気はする。ただ、まあ循環性自体が現象を構築していないタイプの現象も世の中にはたくさんあり、そういうタイプの現象は、一般的な因果推論の議論の範囲内なので、まあ、そこらへんはこういう議論でいいんだろうな、とは思う。
44枚目：「因果ダイアグラムが描けないとバックドア基準は使えない」という話はいい話。、その通りだと思う。傾向スコア法はどが因果構造がわからないなりの工夫というのはわかる。赤字部分の「統計解析からの因果的判断を適切に自重することも重要」というのは全くその通りだとは思う。ただし、そうは言っても、データを提示したあとに、「これは因果関係ではなくて、ただの相関の可能性も強い」みたいな説明をしても、結局は世間一般のひとの科学リテラシーの問題に還元されてしまうところもあるので、なかなか難しい。もちろん、過剰に強く言い切ってしまうタイプの科学者もとても多くて困ったものだけれども、世間一般の科学リテラシーを高校とかで底上げできないものだろうか、とは思う。
45枚めのまとめ図。いいかんじ。AIC系、ベイズファクター系、バックドア基準と、3つ。バックドア基準がまずは正攻法だろうというのは、まさにその通りだろうとは思う。そりゃそーだ、というか、バックドア基準のはなしは思ったよりもあたりまえの話ではあるというか、あたりまえの話だから重要なわけだけれども。
47枚目の「統計的因果推論はしばしば不可能であることを認識し、しかしその不可能性の内実にはグラデーションがあることを認識しよう」というのは、とても良い言い方。すばらしい。不可知論と、実用上の「まあ、しょうがないよね」の間にこそ可能性の中心があるんじゃないか、というのはまったくその通りだと思う。どちらかの極端な話ではなく、よりベターな議論をすることはできるわけで、これはいい話。

あと、「グレンジャーの因果性テスト」って、Judea Pearlの話に近いような気がするのだが、違うんだろうか。あとでググろう。

*1:参考：Wikipedia「交絡因子」http://ja.wikipedia.org/wiki/%E4%BA%A4%E7%B5%A1

2013-04-22

自分用　"R" Tips

他人からした可読性のことなど気にしない覚書です。

【ファイル操作系】

ファイルの読み込み

list.files() #unixでいうところの「ls」コマンド。dosコマンドでいえば「dir」
getwd() #現在の作業ディレクトリを確認
''setwd("C:/usr")'' #作業ディレクトリ"C:/usr"に変更する。UNIXでいうところの"cd"。rのバージョンによってはフルパスで書かないとだめ。
- windows Explorerからパスを貼り付けたとき「\」の部分を「/」に変更しておく必要あり。
''( hoge <- read.table("hoge.csv", header=T, sep=",",row.names=1))'' 　#一行目、一列目がともにが名前になっているCSVファイル"hoge.csv"を「xxxx」として読み込む*1
hogehoge <- t ( hoge ) #行列入れ替え。行列hoge の縦横を入れ替えた行列hogehogeを生成*2
ファイル名のみ入力　# ファイルの中身を参照（catコマンド）
''hoge<-read.csv(file('/path/hoge.csv',encoding='Shift_JIS', header=T, row.names=1))''　#日本語をCSVで読み込ませるとき。encoding='Shift_JIS'などでShift_JISが読みこめるらしい。

ファイルの書き出し

画像のPDFへのプロットの書き込み
- pdf(family="Japan1","hogehoge.pdf", width=40, height=15) # PDFファイルのパスを指定して開く。PDFファイルが日本語を扱えるように指定。書体指定を別途行うことも可能。
- plot(xxxx) #plotしたいものをplotする
- dev.off() #ファイルを閉じる

テキストデータの書き込み
- テキストデータは、 write()　コマンドでいけるが、あまりおすすめしない。
CSV
- write.csv(hogehoge, file='hogehoge.csv')

【パッケージの利用】

chooseCRANmirror()　#サーバー選択後
install.packages( "ライブラリ名" ) #パッケージのインストール
library("psych") #ライブラリの呼び出し

【ヘルプ】

help"コマンド名" #コマンド名についてのhelpを表示

【データを見る】

hoge[1,] #1行目のデータを見る
hoge[,5] #5列目のデータを見る
hoge[1,5]#１行目の5列目のデータを見る。
head(hoge, n=10) #hogeの上から10行目までを見る
dim(hoge) #hogeの行列の行数と列数を確認する。

【分析フェイズ：基本】

基本 of the 基本

summary(xxxx) #基本統計量：最小値、最大値、算術平均、中央値とか
hist(xxxx$age) #列ageの中身でヒストグラム作成
boxplot(xxxx$age) #列ageの中身で箱ひげ図作成
table(xxxx$age) # 列ageの単純集計を行う

一列目をテキストデータのまま扱う

こちら参照：https://oku.edu.mie-u.ac.jp/~okumura/stat/pca.html
- row.names(xxxx) = xxxx[,1] #一列目を文字列として横に出す。xxxxは格納している変数
- xxxx = xxxx[,2:5]　#全体が一列目が文字列だったとして、2列目から5列目までを分析対象とする場合の例

正規分布さまのための変数

qqnorm(xxxx$age) #列ageがどの程度正規分布な感じなのかを見る。プロット図が直線だったら、正規分布だよ。

散布図を眺めたい時*3

散布図の基本
- plot(xxxx) # 全変数間の散布図を作図する
- plot(xxxx[ 1 : 4 ] ) # 変数1 〜 4の間の散布図を作図する
- plot(varA ~ varB, data=xxxx ) # 変数名varA X 変数名varB の散布図を作図する

相関分析で概観したいとき（pearson）

round(cor(xxxx),4)　#相関係数を一覧する
pairs(xxxx,pch=21,bg="red",cex=1)　#散布図をまとめてプロットする
cor.test(xxxx$len, xxxx$width) #相関係数の有意性テスト。列lenと、列widthの間のテスト

※kendall,spearmanの相関についてはググれ。

単回帰の時に使うもの*4

result_of_tankaiki = lm(mokuteki~setsumei, data=xxxx)　#データxxxxのなかにある列mokutekiを目的変数, 列setsumeiが説明変数として、解析結果を変数result_of_tankaiki　にぶっこんでいる。
summary(result_of_tankaiki) #統計結果を見る。Estimateの直下に切片a,もひとつ下が傾きbになる。（P( > |t|)）がP値。
plot(xxxx$age, xxxx$len) #列ageと、列lenの２つの散布図だけを見たい場合
abline(result_of_tankaiki, col=”red”) #最小二乗法なかんじの単回帰の直線を書く時。

重回帰*5

(result_of_jyukaiki.lm <-(mokuteki ~., data=xxxx)) #"."は正規表現的な表記。mokuteki列以外の、残り全部被説明変数としてぶっこみたい場合に。
result_of_jyukaiki.lm <-(mokuteki~setsumei1 + setsumei2 + setsumei3 , data=xxxx) #目的変数に列mokuteki,説明変数にsetsumei1,setsumei2,setsumei3を使う感じ。もちろんどんどん増やしたり変えたりしておｋ。
result_of_jyukaiki.lm <-(mokuteki~(setsumei1 + setsumei2 + setsumei3)^2 , data=xxxx) # 「^2」を付けることで、説明変数感の相関関係（交互作用）を良い感じに排除してくれる。なんか、高度なことを一発でやってくれてるので、アレだね…。クリック統計学スマソ感が出るよね。
extractAIC(result_of_jyukaiki.lm) #よーわからんが、モデルの評価のためのものとして「AIC」という値があるらしい。この値が小さければ小さいほどいいのだそうな。
summary(result_of_jyukaiki.lm)
result_of_jyukaiki.lm2<-step(result_of_jyukaiki.lm1)　#重回帰のあてはめのいい説明変数を勝手に選んでくれるというすぐれもの。すぐれもの過ぎて、ぶっちゃけ恐縮するっていうか、これぞクリック統計学ってやつですね感すら漂ってくる次第です。
summary(result_of_jyukaiki.lm)　#重回帰の結果を確認
plot(result_of_jyukaiki.lm2)
par(temp.par)　#回帰診断図をつくる。右上のQQプロットが、ちゃんと直線になってるかで、正規分布へのあてはまりの強さをあらわす。

ロジスティック回帰分析

t検定

p検定

F検定

χ自乗検定：クロス集計表とかの偏りを検定するやつ

【すこし複雑なやつ】

主成分分析

基本操作
- xxxx <-read.csv(“xxxx.csv", header=T)　#ファイル"xxxx.csv"を読み込み、「xxxx」に格納する。一行目はヘッダー。
- resultx <- prcomp(xxxx, scale=T) # xxxxに主成分分析（prcomp）をかける。結果は「resultx」に格納される。
- summary(resultx) #「resultx」の中身をみる。第一主成分（PC1）や、第二主成分（PC2）がどの程度の説明力をもっているかを確認できる。
- biplot(resultx) #主成分分析の図をプロットする。
- round(result$rotation, 3) #各主成分にそれぞれの変数がどのぐらい効いているかを把握する
- resultx$x : 主成分得点を出力する
biplotコマンドの表示範囲制御オプション
- - biplot(xxxxx, expand=10, xlim=c(-0.30, 0.0), ylim=c(-0.1, 0.1)) #expandが矢印の長さ、xlimで左端、右端。ylimで下端、左端の値を制御できる。

クラスター分析

xxxx.d<-dist(seiseki)
round(xxxx.d) #データのユークリッド距離を求める。
par(mfrow=c(2,2))
(xxxx.hc<-hclust(xxxx.d))
plot(xxxx.hc,main="最遠隣法") 　
plot(xxxx.hc,hang=-1,main="最遠隣法")　#最遠隣法の図をプロット
xxxx.hc2<-hclust(xxxx.d,method="centroid")#重心法centroidの処理をしたものをxxxx.hc2に格納
plot(xxxx.hc2,hang=-1,main="重心法")　#重心法centroidの図をプロット
xxxx.hc3<-hclust(xxxx.d,method="ward.D")#ward法の処理をしたものをxxxx.hc3に格納
plot(xxxx.hc3,hang=-1,main="ウォード法") #xxxx.hc3をプロット

RでSVM

詳しくはここ　http://d.hatena.ne.jp/yutakikuchi/20120827/1346024147

コレスポンデンス分析

自然言語処理

日本語文の名詞をランダムに「ヒャッハァー！」に置換するＲスクリプト
- http://d.hatena.ne.jp/TerasawaT/20100711/1278861735

Rでカテゴリカルデータ

Ｒとカテゴリカルデータの操作と統計量
- http://www1.doshisha.ac.jp/~mjin/R/45/45.html

*1:header=T で一行目がタイトル行だからヨロ、という意味。 sep=","はコンマで列がセパレートされてるからヨロ、という意味。タブ区切りの場合は"\t"

*2:わかんなかったら「転置行列　R」でググればおｋだと思う

*3:詳しくは、ココとか　http://monge.tec.fukuoka-u.ac.jp/r_analysis/descriptive_graphics01.html　「散布図 r」でググるといろいろと出てくるよ

*4:参考：https://sites.google.com/site/webtextofr/seminar1、http://mjin.doshisha.ac.jp/R/13.html

*5:参考：http://mjin.doshisha.ac.jp/R/14.html

2013-04-21

R関係リンク

R関係の自分メモ付きのリンク

入門（こんな面白いことができますよ記事）

ポータル（勉強しろやごるぁ記事）

同志社大学のサイト　http://mjin.doshisha.ac.jp/R/
- 非常に充実したガイドになっている。ある程度高度な内容もフォローしており、ここの内容をひと通り使えたら、とりあえず一山超えたかなぁ感が出ると…いいな。
主に基礎：名古屋市立大学の西山先生による教科書的なもの。最初のお勉強にはちょうどいいぐらいの分量
- https://sites.google.com/site/webtextofr/
- 超基礎から重回帰ぐらいまでフォローしてる

回帰分析・重回帰分析

同志社の：http://mjin.doshisha.ac.jp/R/14.html
里洋平さんの：http://d.hatena.ne.jp/yokkuns/20110302/1299021671
- とても丁寧！
重回帰についてのも少し込み入った話（Rは関係ない）：http://www4.ocn.ne.jp/~murakou/mreg.htm
重回帰メモ　https://sites.google.com/site/officeoga/r/regression

非線形回帰
- http://monge.tec.fukuoka-u.ac.jp/r_analysis/descriptive_correlation12.html

高度な使いこなしに繋がるもの

Rが使えるフリをするための14の知識
- http://www.anlyznews.com/2012/02/r14.html
フリーで使えるデータセット：素晴らしいとは思うけど、他のところから自分でデータとってきたい。
- http://d.hatena.ne.jp/hoxo_m/20120214/p1
Rの拡張を書く
- http://cran.r-project.org/doc/contrib/manuals-jp/R-exts.jp.pdf

その他

東京図書書籍付録系ダウンロード一覧
- http://www.tokyo-tosho.co.jp/download/

スクリプトの読み込み

- http://www.yukun.info/blog/2008/09/r-read-source-file.html
  - 「.r」という拡張子のファイルで保存して、スクリプトの読み込みをすればいいだけらしい。

ふつくしいグラフを描く

GGallyというパッケージがいけるらしい。単にカラフルなだけだと、印刷した時にアレだけれども、まあRのデフォルトよりだいぶキレイではある。
- http://d.hatena.ne.jp/teramonagi/20130412/1365767677
- http://hatenatunnel.appspot.com/MikuHatsune/20130412

2013-04-20

さまざまな平均

メモ

なんども聞いたがわかりにくいなぁ。具体的にはいつ使うのそれ？と思っていたけれども、門倉貴史『統計数字を疑う』の説明がとてもわかりやすかったので、忘れないうちに自分でメモしとく。

算術平均

いわゆる、平均

2と8の平均は、5
(2+8)/2=5

幾何平均

ルートで平均する奴。
複利計算や、株の儲けの経産など、倍率が時系列で変化する系の計算に使う。実はけっこうよく使う。売買計算とかには重要。

2と8の平均は4
√2*√8= 4

調和平均

速度の計算とかに使う。逆数をとる。
たとえば、「太郎くんは、行きは時速3km、帰りは時速5kmで歩きました。平均速度はどのぐらいでしょうか。」
という問題の答えは
(3+5)/2=4　
ではない
答えは、
2/(1/3+1/5)=3.75
で、時速3.75km/時　になる。

自動車の燃費の計算をする場合などにも使われる

加重平均

重み付けをして平均を出す。

(n1*0.4+n2*0.6+n3*0.3)/3=

みたいな計算。
食べログとか。日経平均株価とか。
あと、重回帰の式も重み付けだよね（平均じゃないけど）

2013-03-24

標準誤差

「標準誤差　SE(Standard Error)」についてきちんと理解しておきたいのだが、

なんか、ごく単純に、ようわかっとらん私が、ぐぐっても、
「大数の法則」と、「標準偏差」「ばらつき」と、「サンプリングの精度」の話が全部まじっている気がする。
たぶん、このうちのいくつかは、単なる誤解エントリと思われる。

ここが一番丁寧な感じ。

我楽多頓陳館＞統計学入門
http://www.snap-tck.com/room04/c01/stat/stat02/stat0205.html

標準誤差SE、標準偏差SD、変動係数CV(coefficient of variation)はどれもバラツキを要約する値ですが、これらの使い分けは間違いやすい統計手法の堂々ベスト3

http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html

標準誤差は「標本平均のばらつき」であり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。そして上式からわかるように、例数が増えれば増えるほど標準誤差が小さくなるため、標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。これは考えてみれば当然のことであり、「データ数が多いほど実験結果が信頼できるようになる」という常識を裏打ちしています。つまり標準誤差とは、「ヘタな鉄砲も数射ちゃ当る」という格言を数学的に表現した値

標準誤差は推測統計学独特の指標であり、記述統計学にはありません。

あと、
厚生労働統計協会のページ
http://www.hws-kyokai.or.jp/158gosa-info.htm

統計学、わからんちん

略式表記のわかりにくさ

ところで、いまだに推測統計の略式表記に慣れません。

確率変数：Ｘ
母平均値：μ（ミュー）
母標準偏差：σ（シグマ）
母分散：σ²（シグマ二乗？）
母比率：Ｐ
_
標本平均：x
標本標準偏差：s
標本分散：s²
標本比率：p

わかりにくいのは、なぜシグマが、�瑤任覆咩▽劼良週④覆里ʔ�
μ、なんて放射線の「1 μSv」（1マイクロシーベルト）のときぐらいにしか見ないっていうか…

ていうか、なんでそういう略式表記なのだろうか…覚えにくいんだけど…
なんか、覚えやすい語呂合わせとかないのだろうか。
_
x　って、だいたい、どう発音すればいいのか…

記述統計学、推計統計学

記述統計学(descriptive statistics)と推測統計学(inferential statistics)という用語の使い方も、分野外の人間にとってはえらくわかりにくい。
「全数調査のときの話」と「標本調査の時の話」。
あるいは、「ぜんぶのデータがわかるときの処理方法」と、「部分的にしかデータがわからない場合の処理方法」みたいな言い方ではいかんのだろうか。せめて、
「全数統計学」「推測統計学」とか。「記述統計」という表現の「記述descriptive」が一体何を意味しているのかがよーわからん。

「相関係数correlation coefficient」なんてのは、ネーミングとしては素晴らしいと思うんだよね。漢字から意味が推測できるから。
なんか、別に統計業界に限った話ではないけれども、日常表現と連続するようにして、もう少し意味をわかりやすくする努力を、もろもろの研究者はすべきではあるまいか、と思うのだが、どうなんだろうか。

2013-01-12

統計メモ

モヒカン族の多い統計クラスタにおいて、めずらしくあたりの柔らかい雰囲気の人のエントリがブクマにあがっている。良い感じの記事。

http://b.hatena.ne.jp/entry/d.hatena.ne.jp/what_a_dude/20130109
されたら微妙な気持ちになる質問を列挙している

１．有意差が出ないんですけど、どうにかして出せないですか？
２．自分野の流儀に妙にこだわる
３．SDとSEってどっちがいいんですかーって聞かれたからグラフを見てみると・・・
４．クラスター分析の結果をやたら強調してくる

　
ということであった。
１，２，４あたりの初心者質問はさすがにわたしはもうしないけど、
「３」あたりは、ごめん。いまだにわかってないんだ。
いまだに、「信頼区間」「標準誤差」がようわからん。
それは、おれが悪いんじゃない、おれが今まで受けてきた教育が悪いんだ…！…と言ってみるテスト。
　
…いや、本当はわかってるんです。
要するにわたしがクリック統計学やってるのが悪いからだと思ってます。
平方誤差とか、比較的初歩のはずの概念がいまだにわからんというのは、まあ、クリック統計学のせいにちがいありません。
まじめに電卓叩いての計算をしたりしたいです。あと、親切な統計の先輩がほしいです。
ほとんど独学なんで…。
　
＞統計に関してはメンターを見つけるのが一番いい
と書かれていたが、それかなぁ…
　
あと、箱ヒゲグラフの利点っていうのも、いまだに今ひとつようわかっとらんです。
　
あと、続けての
http://d.hatena.ne.jp/what_a_dude/20130111/p1
は、要するに

実験計画とはなんぞや
科学的手続きとはなんぞや

の話だと思いました。まぁ、ワンエントリーで消化するには重たい話題
　
しかし、こういう、とりつくしまのなさそうなモヒカン…ではないタイプの人が統計クラスタにもっと沢山いるといいなぁ、とおもったのであります。
　
だって、統計の人たちとか、なんであんなにみんなこわいの？と思うことが本当に多かったもので…
　
http://aoki2.si.gunma-u.ac.jp/taygeta/statistics.cgi
青木繁伸先生とか、初歩的な疑問について、いつも、ものすごく丁寧に答えていて本当に尊敬するのだけれども、
ちょいちょい恐れ多いしな…。
　
まぁ、でも、同じような話を、何度も何度も何度もせざるをえないという時にモヒカンっぽい人格が召喚されるというのは、わかる気もする。
わたしも、わたしが一番詳しい分野の話は、何度言っても、世間の人は初歩的な部分で質問してきたり、初歩的でありがちな反論で専門家をばかにしたるするからなぁ…（統計でいえば、「有意差なんて恣意的じゃん。だから統計はばかくさい」的な、超ありがち系の批判）

■1.サーバーへアクセスせよ chooseCRANmirror() #サーバーを選んだら、あとは、追加パッケージを指定するだけ…！