統計で扱う誤差

統計学における「誤差」

データは誤差をもって観察される

データ化は、現象を数値にするという作業です。これには、一時間の交通量、仕掛けに入った魚の数、一年の売上金額などが含まれます。「現実に起きている(ある)ものを数字という明確なものに置き換え、他者との意思疎通を容易にする」というのが主な目的になりますが、データ化には膨大な労力がかかるので、すべての場所・すべてのものに対して実行することは不可能です。このため、部分を抜き出して観察し(サンプリング)、その限られた観察から全体の傾向を推測することになります。

SPONSOR LINK

さて、ここで問題になるのは、その「抜き出してきたデータ」が、本当に全体を反映しているのだろうか、ということになります。例えば、白鳥の来ない20の湖に比べ、白鳥の来る別の20の湖では、来訪するお客さんの数に「違いがあるように」見えたとします。しかし、仮に日本に1000の湖があるとしたら、データは40の湖でしか得られていません。「白鳥の来る湖のほうが、お客さんの数がおおい」と言ってしまっていいのでしょうか。統計学では、この「部分」を取り出すことに由来する不確実性(誤差)を考慮したうえで、「違いがあると考えるのが妥当か」という問いに客観的指標を与える役割を担っています。

誤差のタイプを考える

上述のように、統計学では、「部分」を取り出すことに由来する不確実性(誤差)を考慮します。それでは、どうやってこの誤差を考慮するのでしょうか。その基本パーツとなるのが「確率分布」です。正規分布、ポアソン分布、二項分布、などなど名前を出し始めたらキリがありませんが、これら確率分布はみな、「部分を切り出すことに由来する誤差の現れ方」を記述する数式です。適切な確率分布の選ぶためには、興味の中心であるデータの「タイプ」を見極めます。例えば、ポアソン分布であれば非負の離散値(カウントデータなど)、正規分布であれば実数などなどです(参考)。言い換えれば、データがどのような特徴を持つかによって誤差の現れ方が異なるので、それに応じた確率分布で考慮してあげましょう、ということになると思います。

まとめ

以上、今回は統計の「誤差」の扱いに関してまとめました。「違い」や「傾向」を検証する具体的な方法については別途まとめたいと思います。

Spread the love

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です