【データ分析】重回帰分析における多重共線性とその判定法について
データ分析において、重回帰分析は各説明変数が目的変数に対して、どれくらい影響を与えるのかを理解する上で重要な指標です。重回帰分析では、分析を行う際に注意すべき問題の1つに「多重共線性」というものがあります。本記事では、重回帰分析における多重共線性の問題とその判定法について説明します。
0.本ブログの要約
最初に本ブログの要点をシンプルにかつポップにまとめます
①重回帰分析→データ分析手法だよ〜
②重回帰分析には多重共線性ってものが存在するよー
③多重共線性ってなんでダメなの→各説明変数は重回帰分析では「互いに独立」ってルールのもとで分析が行われている。→各変数間に相関があったら、ルールが崩れて分析がおかしくなるよね
④多重共線性ってどうやってチェックするの→VIFと相関行列
⑤多重共線性を見つけたら→変数削除or主成分分析
1.はじめに
データ分析において、重回帰分析は各説明変数が目的変数に対して、どれくらい影響を与えるのかを理解する上で重要な指標です。重回帰分析では、分析を行う際に注意すべき問題の1つに「多重共線性」というものがあります。本記事では、重回帰分析における多重共線性の問題とその判定法について説明します。
2.重回帰分析
重回帰分析とは、目的変数(従属変数)と複数の説明変数(独立変数)との関係をモデル化する手法です。重回帰分析の数式は下記のようになります。
$$ \widehat{Y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n $$
この時、各説明変数(独立変数)は「互いに独立」というルールがあり、このルールのもとで分析が行われます。また、各説明変数がどれだけ目的変数に影響をしたかを考える方法としては、ある1つの変数が1変化した時に目的変数がどれだけ変化したかを考えます。このとき、各変数が互いに独立というルールがいきてきます。
3.多重共線性とは
多重共線性とは、説明変数間に高い相関がある状態を言います。(重回帰分析の説明では、各説明変数は互いに独立していると言いましたが、現実は、多少相関があっても相関が大きくなければ問題ないです。)このような状態が発生すると、モデルの信頼性と解釈可能性に深刻な影響を与える可能性があります。以下に、多重共線性が引き起こす主なデメリットを紹介します。
①モデルの解釈が困難になる
重回帰分析の基本的な前提として、各説明変数は互いに独立であることが求められます。しかし、説明変数間で高い相関があると、前提条件が崩れてしまい、目的変数に寄与する説明変数を「見つけずらくなります。
②統計的有意性の低下
各説明変数に対して、目的変数に寄与したのは「統計的に有意(必然的であるのか)なのか」どうか判断する場面があります。その時に、多重共線性が発生していると、本来は統計的に有意な変数も有意でないと判断されてしまう場合があります(逆もあります)。
4.多重共線性の判定法
多重共線性の判定をするためには、いくつかの手法があります。今回は、その中でも有名な2つの手法を紹介します。
①VIF(分散拡大要因:Variance inflation factor)
VIFは特定の説明変数が他の説明変数に対して、どの程度相関しているかを示す指標であり、一般的にVIFが10を超える場合は、多重共線性が強いと判断されます。
②相関行列
相関行列は各変数の相関関係をまとめた表になります。説明変数間の相関行列を見て、相関係数の値が0.7以上の場合、多重共線性の可能性が高いです。ただし、相関行列では2変数間の情報しか見れtないため、VIFを使った方がより安全だと考えられます。
個人的におすすめなのは、まずVIFで多重共線性を調べ、補助的な役割で相関行列を見ていけば良いのではないかと思います。また、多重共線性の原因となる変数が見つかった場合は、その変数変数を削除したり、主成分分析で、相関が強い変数をまとめるなどの対処法があります。
5.まとめ
今回は、重回帰分析における多重共線性と多重共線性の判定法について、まとめました。多重共線性を考慮することでよりより、分析、モデル作りが可能になるのでぜひやってみてください。最後に本ページの要約をもう一度載せて終わりにします。
本ブログの要約
①重回帰分析→データ分析手法だよ〜
②重回帰分析には多重共線性ってものが存在するよー
③多重共線性ってなんでダメなの→各説明変数は重回帰分析では「互いに独立」ってルールのもとで分析が行われている。→各変数間に相関があったら、ルールが崩れて分析がおかしくなるよね
④多重共線性ってどうやってチェックするの→VIFと相関行列
⑤多重共線性を見つけたら→変数削除or主成分分析