回帰分析
出典: フリー百科事典『ウィキペディア(Wikipedia)』
回帰分析(かいきぶんせき regression analysis)とは、従属変数(目的変数)と連続尺度の独立変数(説明変数)の間に式を当てはめ、従属変数が説明変数によってどれくらい説明できるのかを定量的に分析することである。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみよう。経済全体の消費(C)を国民所得(Y)で説明する消費関数がC = a + cYという形で表されるとする。この例では、消費が従属変数、国民所得が説明変数に対応する。以下で述べる計算方法によってa,cといった係数の大きさを推計する。
説明変数が1つならば単回帰分析、2つ以上ならば重回帰分析と呼ぶことがある。 普通用いられる方法は上式のような1次式モデルを用いる線形回帰であるが、その他のモデルを用いる非線形回帰の方法もある。
回帰分析で用いられる代表的な推計方法として、最小二乗法という方法がある。
最小二乗法の概要は次のとおりである。はじめに回帰式(目的変数を説明変数で計算する式)を設定する。 次に、回帰式の係数を求めることが目的となるが、「目的変数の測定値と(説明変数の測定値および回帰式を用いて求めた)目的変数の推定値の差の2乗平均」が最小になるように求める。
マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は無相関という仮定が入っている。なので、説明変数同時が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある(これは多重共線性と呼ばれる)。 例 小学校での定期テスト得点から重回帰で分析する場合に 理科の点数 を従属変数に 数学と国語 を説明変数にした場合、 数学が増えると理科の点数が多く、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。
これは数学と国語の点数に強い相関が両者にあるからである。 なぜなら、勉強するかどうかという共通の原因があるからだ。 この場合は数学と国語の平均点と、数学と国語の得点の差というように和と差に数字を加工すると、この二つは相関がたいてい低く、かつ解釈しやすい。数学と国語の得点の差は、数学の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからだ。
心理学やマーケティングでは、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルが構築され、普及している。同手法では豊田秀樹教授が著名。