1 統計モデリングとは

1.1 本章の内容

GLMやGLMMは、統計モデリングと呼ばれる分析手法の一種です。本章では、まず統計モデリングとは何かを説明します。

1.2 データ分析の二つの目的

研究活動において、データ分析は必要不可欠です。事例的な研究や統計分析がなくても結果が明確な場合を除けば、他人に説得力のある形で自身の研究結果を提示するためにはデータ分析が必要になります。

データ分析の目的としては、大きく分けて現象の解釈(= 現象の理由や仕組みが知りたい！)と将来の予測(これまでに得られたデータから未来のふるまいを予測したい！)の2つが設定されることが多いです(松浦, 2016; 馬場, 2019)。

現象の解釈

ニホンザルの遊びについて分析することで、どのような要因が遊び時間割合に影響するか探る
喫煙の有無と病歴を分析することで、喫煙が健康に及ぼす影響を探る

将来の予測

生物の個体数とそれに影響する要因を分析することで、将来の個体数を予測する。
株価の変動を分析することで、今後の株式市場の動きを予測する。

1.3 統計モデリングの必要性

これらの目的を達成するために、統計モデリングは非常に有用な手法です(松浦, 2016)。統計モデリングは、複雑な問題に対しても解釈がしやすいうえに、予測性能も高いという大きな利点を持っているからです。

モデルとは、「不必要な性質を無視して、必要なエッセンスだけを取り上げたもの」(松浦, 2016)です。例えば、「プラモデル」は本物の車や飛行機の実際の重さ・材質・機能を無視し、形や色のみに着目して作成したものです。モデルを作る行為をモデリングといいます。

モデルのなかでも、そのエッセンスを記述するのに数式を使ったものが数理モデルであり、さらに確率的な表現を取り入れた数理モデルを確率モデルといいます。統計モデリングとは、実際のデータに確率モデルを当てはめて、現象の解釈や予測をおこなうことを指します。具体的に統計モデリングは以下の手順で行われます。

観測したデータが生み出された過程を確率的に表現する
データからモデルの推定を行う
推定されたモデルを考察することで現象の解釈や予測を行う

1.4 一般化線形モデル

統計モデルの中でもある程度複雑なモデルを作ることができ、かつ解釈がしやすいために非常によく用いられるのが一般化線形モデル(Generlized linear model: GLM)です。本稿では、主に一般化線形モデルとそれを少し発展された手法である一般化線形混合モデル(Generalized linear mixed model)について解説を行います。

References

松浦健太郎. (2016). StanとRでベイズ統計モデリング. 共立出版.

馬場真哉. (2019). RとStanではじめるベイズ統計モデリングによるデータ分析. 講談社.