Rはオープンソースの統計処理ソフトウェアです．
Ross Ihaka氏とRobert Clifford Gentleman氏によって開発されたR言語の実装にあたります．

Rは統計モデルを記述する上での見通しの良さに突出しており，ベクトル・行列の計算，欠損データの取り扱い，多様な確率分布の利用といった点でも優れています．

一部の列のみを参照して紐づけるなら，by.xまたはby.yオプションを使います．
このオプションは，各データフレームにおける見出しが異なることを許容します．
例えば，by.x="ID", by.y="アイディー"とすれば，2つのデータフレームの間でこれらが同じことを意味する列であると認識されます．

str(データフレーム)の形でその構造を調べることができます．

欠損値

欠損値を除去するにはis.na(x)による型判定を利用するほか，関数

omit.na(x)

による除去，もしくは，コマンドのオプションを利用する（例えば，

mean(x, na.rm=T)

とする）という方法があります．

applyによる集計

apply()はマップによる操作を行えます．
matが行列であるとき，

apply(mat, マージン, 関数)

として，mat中の指定した部分それぞれについて関数を適用します．
ここで，マージンが1なら行，2なら列，c(1,2)なら要素を対象とします．

例えば，

apply(mat, 1, sum)

とすると，各行の和をそれぞれ返します．

aggregateによる集計

いくつかの断面をもとにデータを合計する例です．
byと異なり，aggregateはデータフレームを返す点が優れています．

aggregate(x, by=list(断面1, 断面2, ... ), sum)

プログラミング

if文

ifelse(条件式, 真の場合に返す値, 偽の場合に返す値)

for文

for(i in 1:10){
	処理
}

関数

関数名 <- function(x){
	y <- xの関数  # ローカルな代入
	return y
}

グローバル変数に代入を行うには<<-を使います．
ローカル変数とグローバル変数が同じ名前だと，関数内ではそれぞれ別物に扱われるので，代入時に注意が必要です．
function(x=1){}のようにして，初期値を設定することができます．

ラムダ式

apply(dat, 2, function(x){ xを使った式 })

のような書き方ができます．

シェルからRscriptを呼ぶ

Rのダイアログの中で書くまま動かせるという例です．

rscript -e "x <- c(1,2); 2 * x;"

基本統計量

x, yがベクトルであるとき，基本統計量には以下のようなものがあります．

合計 sum(x)
平均 mean(x)
不偏分散 var(x)
標準偏差 sd(x)（不偏分散より導出される）
不偏共分散 cov(x, y)
中央値 median(x)
中央絶対偏差 mad(x)
最頻値 names(which.max(table(x)))
データの個数 length(x)
最大値 max(x)
最小値 min(x)
四分位点 quantile(x)
四分位範囲 IQR(x)
範囲 range(x)

要約統計量は

summary(x)

で得られます．
psychパッケージの

describe(x)

を使うと，データ数やトリム平均，歪度等も得られます．

分布

r（random：乱数）・d（distribution：確率密度），p（probability：p値，累積分布），q（quantity：pに対する確率点）を接頭辞として，分布の名称を続けます．

例えば，正規分布はnormを続けるので，rnorm()が正規分布における乱数の発生を意味します．
以下は，いくつかの例です．

正規分布

平均mean，標準偏差sdとします．

rnorm(n, mean, sd)
dnorm(x, mean, sd)
pnorm(q)  # 下側確率p = Prob(Z < q)
qnorm(p)

上側確率についてはpnorm(q, lower.tail=FALSE)で求められます．

ベクトルxを標準化するには，

scale(x)

とします．
ベクトルxを使って，偏差値を作るなら

10 * scale(x) + 50

です．

t分布

正規分布と似ており，自由度dfであるとき，

rt(n, df)
dt(x, df)
pt(q, df)
qt(p, df)

です．

一様分布

最小値min，最大値maxであるときのn個の乱数を発生させるには，

runif(n, min, max)

とします．

二項分布

その回数でオモテが出る確率は次の通りです．

dbinom(オモテが出た回数, コインを投げた回数, オモテが出る確率)

集計表

集計表は

table(v)

と書き，クロス集計表であれば

table(v1,v2)

となります．

グループごとの度数分布

Xという断面でグループ化したデータxの度数分布表

x <- factor(dat$X)
table(x)

ここで，factor関数で要因型ベクトルへの変換を行なっています．

指定された項目についてグループごとの平均をとるには，apply関数のバリエーションであるtapply関数を用いて

tapply(項目名, x, mean)

とします．

標本抽出

ベクトルの要素からの非復元抽出は次の通りです．

sample(ベクトル, 抽出回数)

復元抽出を行うには，replace=Tのオプションを入れます．

モデルの記述

目的変数y，説明変数xであるとき，Rでは（多くの場合）

y ~ x

のように書きます．
この記法による式をformula式といいます．

説明変数の追加は+で結合します．

y ~ x1 + x2

x1とx2の交差効果は:で表現します．

y ~ x1 + x2 + x1:x2

交差効果を検討する場合は，それぞれの説明変数もモデルに含めるべきです．
このため，上式と同じことを*で短く書けるようになっています．

y ~ x1 * x2

参考文献

Rによる統計学の入門書です．

山田剛史ら (2008)「Rによるやさしい統計学」オーム社．

Rの概説書です．

舟尾暢男 (2016)「The R Tips ― データ解析環境Rの基本技・グラフィックス活用集」3版，オーム社．

Rによる統計分析の準備

目次

インストール

CentOS 8

Alpine Linux

セットアップ

起動と終了

作業ディレクトリ

作業の保存・読み込み

パッケージ

ヘルプ

計算

基礎計算

ベクトル

行列

配列

データ

読み込み

書き出し

型

リスト

データフレーム

欠損値