決定係数(R2)と赤池情報量基準(AIC)の違い

統計モデルを組み、観察されている現象がうまく表現できているのかを評価する。この一連の流れの中で、「説明力」という言葉をよく耳にします。R2とAIC、いずれもこの「説明力」というコンテクストで使われことが多いと思うのですが、両者には決定的な違いがあります。

決定係数(R2

R2のほうが「説明力」という言葉を当てるのにふさわしい指標だと思います。R2は、もともと応答変数に存在していたばらつきが、「説明変数を加えることによってどれだけ減ったか」を表しているものです()。R2=1.0となるとすべてのばらつきが説明されたことになります(ほぼありえないですが)。つまり、R2は現在手持ちのデータに対する説明力を表している指標となります。

注意しなければならないのは、無駄な説明変数を加えた場合でも、R2は改善されてしまうことです。例えば、応答変数yと一切関係のないランダム変数xをモデルに加えた場合でも、R2は増加します。

赤池情報量基準(AIC)

一方AICは、「AICの低いモデルのほうが、新しいデータセットに対してより適切な予測を導いてくれる」という数学的な裏付けがなされています。表面的な理解としては、パラメーター数Kでペナルティが付くような式になっている(有益な情報のない変数は「無駄」と評価される)ということでいいのかもしれません。しかし、上記のように、予測の頑健性を評価している(ただし同じ母集団の別サンプルに対する予測)という点は抑えておいたほうがいいような気がします。この意味において、パラメーター数でペナルティ付けをする自由度調整済み決定係数(adjusted R2)とも根本的な意味が異なっています。

両者の使い分け

前者は「現状のデータに対する当てはまり」、後者は「新しいデータに対する予測の頑健性(ただし同じ母集団であることが条件)」を評価しているので、この意味合いを考えたうえで両者を使い分ける必要があると思います。例えば、まったく予測に興味がなく、現状のモデルがどれだけ観察値を説明できているかを知りたい場合はR2、作ったモデルの推定値から地図化などを行いたい場合はAICを用いたほうがいいと思います。ただし、いずれも与えられた説明変数の中だけでの「ベスト」を選ぶので、その限界を十分理解することが大事なのだと思います。

SPONSOR LINK

尤度

尤度

統計の教科書では、尤度(もしくは対数尤度)という言葉を頻繁に目にすると思います。しかし、その意味するところはあまり考えないことが多いのではないでしょうか。というのも、Rの普及に伴い、特にその言葉の意味を理解しなくとも、ある程度の統計解析は簡単にできてしまうからです。ですが、解析の意味をきちんと理解したり、より高度な統計解析を行おうとするときには、尤度の意味をしっかりと理解することが必要になってきます。では、文字通りに受け取ると「尤(もっと)もらしさ」を表す尤度ですが、なにをもって尤もらしさを測っているのでしょうか。尤度には、「パラメーター」が深く関わっているので、まずはパラメーターの言葉の意味を整理し、そのあとに尤度の説明をすることになります。

パラメーター

パラメーター(母数)とは、推定対象となる未知の数(つまり知りたいもの)を表します。例えば、日本人の平均収入を知りたいとして、アンケート調査を行ったとします。しかし、すべての日本人に対してアンケート調査を行うことは不可能なので、1000人にアンケートをお願いして回答を得ました。このとき、「すべての日本人の収入の平均μ」が推定対象となる未知の数(パラメーター)であり、その一部の情報をもつ調査データ(1000人分の回答)から推定することになります。同様に、標準偏差や偏回帰係数も、「知りたい未知の値」なので、パラメーターの枠に収まります。

尤度

データ(サンプル)は、あるパラメーターによって特徴づけられた「数の集まり(母集団)」から(ランダムに)選び取られてきた数値です。上の例では、1000人分のデータは日本人という集まりの「部分」なので、「すべての」日本人の平均収入μ(円)、ばらつき(標準偏差)σ(円)という特徴を持った母集団から観察されたはずです。しかし、μとσはわからないので、とりあえず適当な平均MとばらつきVの値を代入し、「1000人分の収入X1~X1000が同時にドンピシャで観察される確率」を出すことで、MとVの平均・ばらつきとしての「尤もらしさ」をみてみることになります。これが尤度です。確率分布(部分抽出に伴う誤差)をf(x)としたとき、尤度L(Xi|M,V)は以下の式で与えられます。

L(Xi|M,V) = f(X1|M,V)*f(X2|M,V)…*f(X1000|M,V)
※縦棒は条件付きの意味を表す。例えばf(X1|M,V)は、平均をM、ばらつきをVとしたときにX1が観察される確率を表す。

最尤法

では、いったい平均μとばらつき(標準偏差)σをどれくらいの値にしたら尤度は最大となるのでしょうか。この問題を解くには、尤度関数L(X)を微分し、その導関数が0と等しくなるMおよびVを明らかにすればよさそうです(尤度が最大となるようなパラメーター探索を最尤法と呼ぶ)。ただし、尤度は積の形で表されているので、そのままでは計算量が膨大になってしまいます。ですが、対数をとって和の形に変換してあげれば(対数尤度)、その計算量は大きく減らせます。通常、尤度ではなく「対数尤度(Log-liklihood)」がRのアウトプットとして出されるのにはこういった理由があります。

SPONSOR LINK

検定の基本的な考え方

違いがある?

検定

ある実験を行い、植物の成長に対する施肥の影響を調べたとします。実験者の仮説は「栄養を与えれば成長が早くなる」というもので、処理区では肥料を与え、未処理区では水のみを与えたとします。両区の最終的な植物体の重さがデータとして得られる時に、どうすれば「処理区間で平均重量に違いがある」という主張に裏付けを与えることができるのでしょうか。その最もシンプルな方法に「検定」があります:逆説的ですが、いったん「両者に違いはない」という仮定(帰無仮説)を置き、その仮定のもとで観察値が生じる確率(p-value)を計算する手法です。上の例で考えると、処理のある・なしに関わらず、両グループの平均重量には違いがないとし、その仮定のもとで「観察された数の違い」が生じる確率を計算します。この確率が非常に小さいならば(慣習として< 0.05とされる)、「処理区間には違いがある」と考えたほうが妥当という結論に落ち着きます。

検定が評価しているもの

検定が評価対象とするのは、グループ間の違いが「コンスタントかどうか」です。上の例で、各処理区5個体の植物体の重さを測ったとき、施肥したほうが平均30gも重かったとします。しかし、個体間のばらつきが大きく、肥料を与えた場合も2/5個体は未処理区よりも成長が悪かったしましょう。この場合、一貫して「施肥の効果」が得られたとは言えず、30gの違いは「サンプリングの際に、たまたま変に成長のよかった個体が計測されただけ(部分を取り出したことによる誤差)」として解釈されます。一方、処理区で平均1gしか重くなっていなかったとしても、すべての個体が未処理区よりも重くなっていた場合には、統計的には有意差があるとされます。なお、サンプリングに由来する誤差ですが、通常は繰り返しの数が増えるとともに小さくなる特徴を持っています(分母に繰り返し数nが入った数式のため)。そのため、有意差(p < 0.05)が検出できるかどうかは繰り返しの数に強く依存します(サンプルサイズが大きいほど有意差を検出しやすい)。

確率分布

サンプリングに伴って生じる「誤差のタイプ」、つまり確率分布はユーザーが考えて指定する必要があります。基本的には「違いの有無」を知りたい変数の数の特徴(上の例であれば植物体の重さ)から判断することになります(参考)。この確率分布の選び方は非常に重要で、仮に不適切な確率分布の元で検定を行った場合、本当は違いがあっても「違いがない」という結論が得られる場合もあります(逆もしかり)。

有意差がなかったときの解釈

最後に、有意差が得られた場合はどういうことを意味するのでしょうか。有意差がなかった場合、これはグループ間の平均が「同じである」ということは意味しません。検定の考え方から、「違いがある」という仮説が棄却されただけであって、「同じである」という仮説を積極的に支持しているわけではありません。

統計で扱う誤差

統計学における「誤差」

データは誤差をもって観察される

データ化は、現象を数値にするという作業です。これには、一時間の交通量、仕掛けに入った魚の数、一年の売上金額などが含まれます。「現実に起きている(ある)ものを数字という明確なものに置き換え、他者との意思疎通を容易にする」というのが主な目的になりますが、データ化には膨大な労力がかかるので、すべての場所・すべてのものに対して実行することは不可能です。このため、部分を抜き出して観察し(サンプリング)、その限られた観察から全体の傾向を推測することになります。

さて、ここで問題になるのは、その「抜き出してきたデータ」が、本当に全体を反映しているのだろうか、ということになります。例えば、白鳥の来ない20の湖に比べ、白鳥の来る別の20の湖では、来訪するお客さんの数に「違いがあるように」見えたとします。しかし、仮に日本に1000の湖があるとしたら、データは40の湖でしか得られていません。「白鳥の来る湖のほうが、お客さんの数がおおい」と言ってしまっていいのでしょうか。統計学では、この「部分」を取り出すことに由来する不確実性(誤差)を考慮したうえで、「違いがあると考えるのが妥当か」という問いに客観的指標を与える役割を担っています。

誤差のタイプを考える

上述のように、統計学では、「部分」を取り出すことに由来する不確実性(誤差)を考慮します。それでは、どうやってこの誤差を考慮するのでしょうか。その基本パーツとなるのが「確率分布」です。正規分布、ポアソン分布、二項分布、などなど名前を出し始めたらキリがありませんが、これら確率分布はみな、「部分を切り出すことに由来する誤差の現れ方」を記述する数式です。適切な確率分布の選ぶためには、興味の中心であるデータの「タイプ」を見極めます。例えば、ポアソン分布であれば非負の離散値(カウントデータなど)、正規分布であれば実数などなどです(参考)。言い換えれば、データがどのような特徴を持つかによって誤差の現れ方が異なるので、それに応じた確率分布で考慮してあげましょう、ということになると思います。

まとめ

以上、今回は統計の「誤差」の扱いに関してまとめました。「違い」や「傾向」を検証する具体的な方法については別途まとめたいと思います。