時系列データの取り扱い

時系列データの特性:「独立」仮定の破綻

Rパッケージはとても簡単に利用できるよう整備されているため、ANOVAや線形モデルを「なんとなく」利用することが多いと思います。しかし、これらの解析におけるとても重要な仮定のひとつに、「繰り返しの単位となるサンプルは“互いに独立”であること」があります(あるサンプル値iが変化しても他のサンプル値は影響を受けない)。調査研究の際、「調査地点間は~m以上離した」のように設定することが多いですが、これは地点間の距離が近すぎることで、サンプル値同士が似た値をとってしまうことを避ける意図があります(地点iのサンプル値が直近地点jのサンプル値に影響する)。“独立性”が保てないまま解析すると(あるいはそれをモデルのなかで考慮しない限り)、パラメーター推定の正確性が損なわれ、誤った結論を導きかねません。

SPONSOR LINK

それでは、生態学における時系列データはどのような特徴をもつのでしょうか。例えば、ここに個体の移出入はない閉鎖個体群があるとした場合、時間tにおける個体数Ntは、前年の個体数Nt-1に依存する繁殖や死亡の過程を経て決まると考えられます。これは、「サンプルは互いに独立」という仮定が崩れる典型といえるでしょう。この問題に対処するための様々な解析アプローチがありますが、ここでは生態学の文脈で力を発揮する「状態空間モデル(State-space model)」の基本的な考え方と実装手順を説明します。

状態空間モデル

時系列データの解析には、様々なアプローチがあります。例えば、自己回帰モデル(Auto Regressive model; AR model)や移動平均モデル(Moving Average model; MA model)、この両者を組み合わせたARMAモデルなどがありますが、いずれの手法も「誤差が年(i.e. 観察ユニット)を経るごとに蓄積する」過程を明示的に考慮する点において共通しています。しかし、これらの手法では、生態学の興味の中心である「増加率」や「増加率の年変動」を推定することは難しいという欠点を抱えています。状態空間モデルは、この意味において上記の手法より優れており、生態学の調査研究に適した手法だと思われます。なぜなら、1)生態過程(個体群の増加プロセス)を明示的に扱えるだけでなく、2)観察過程も考慮できる(調査努力量、発見効率など)という長所をもつからです。

状態空間モデルでは、このモデルの少し変わった(賢い)考え方により、こうした複雑なプロセスのモデル化を可能にしています。その考え方とは、生物の個体数Nが観察されるまでの過程を、「観察プロセス(Observation process)」と「状態プロセス(State process)」に切り分けて考える、というものです。

状態プロセスでは、生物が実際の繁殖や死亡の過程を経て増減する「真の個体数Nstate(推定対象となるパラメーター)」をモデル化します(直接観察できない“知りたい”もの)。一方、観察プロセスでは、観察個体数Nobs(データ)は、真の個体数Nstateから誤差を伴って観察されると仮定し、その過程をモデル化します。このような枠組みを取り入れることで、観察誤差(σobs)と真の揺らぎ(環境変化による増加率の年変動など;σstate)を明確に区別でき、より正確なパラメーター推定(個体群増加率など)が可能になります。

Spread the love

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です