Rによる相関分析
Rによる相関分析まわりのメモです.
目次
相関係数
共分散を各々の標準偏差で割ったピアソンの積立相関係数は
cor(vec1, vec2) |
で求めます.
オプションmethod="kendall"
でケンドールの順位相関係数となります.
ファイ係数はバイナリのデータについて与えられる相関係数の特殊ケースとして得られます.
3変数以上を入れた場合には,相関行列を返します.
NAを含まないデータのみを使って計算してよいのであれば,オプションuse="complete.obs"
を指定します.
Cohenの経験則
心理学ではCohenが正規分布している変数について,次の解釈を提案しています.
- 0.1:弱い相関
- 0.3:中程度の相関
- 0.5:強い相関
ポリコリック相関
順序尺度の相関の1つに,ポリコリック相関があります.
潜在的には連続値で評価しているものについて少数の整数値から回答を選ぶような場合に,連続量の方の相関を推定する方法です.
psych
パッケージを有効にして,cor()
の代わりにpolychoric()
として求めます.
Box-Cox変換
相関係数は線形関係を測っているので,相関係数を求める前に変数は必要に応じて予め変換しておきます.
冪関数を一般化したBox-Cox変換は,分布を正規分布に最も近くするものです.
car
パッケージのpowerTransform()
を用います.
powerTransform()
で求めた冪はcoef()
関数で取り出せます.
この値を
bcPower(データ, 冪) |
として使うことで,変数変換を行えます.
無相関検定
相関の有無を調べるには,
cor.test(x,y) |
を使います.
cor()
と同様に,オプションでmethod
の設定ができます.
中程度以上の相関が有意に出るようなら,その後に続ける分析では共線性に注意しなければなりません.
参考文献
言葉で理論を簡潔に紹介しながら,手を動かしてマーケティングリサーチを学んでいくスタイルの実践的な書籍です.
- Chris Chapman and Elea McDonnell Feit 著,鳥居弘志 訳 (2020)「Rによる実践的マーケティングリサーチと分析」2版,共立出版.(Chris Chapman and Elea McDonnell Feit (2019) “R for Marketing Research and Analytics”, 2nd ed., Springer)