時系列解析の自己相関係数と偏自己相関係数、相互相関係数を分かりやすく解説
時系列データって興味深いものですよね。一見単純な数字の列に見えますが、その背後には様々なパターンやトレンド、季節性などが隠れています。
そこで時系列データの特徴を掴むものが自己相関係数と偏自己相関係数があります。誰にでも分かりやすく伝わるように解説しています。
偏自己相関と自己相関の違いが分からない方へ
時系列データって興味深いものですよね。一見単純な数字の列に見えますが、その背後には様々なパターンやトレンド、季節性などが隠れています。
さて、そんな時系列データを解析する際によく耳にするのが「自己相関」と「偏自己相関」。
しかし、「自己相関」と「偏自己相関」の違いは何?と思われる方もいると思います。
これらの用語が何を意味し、何が違うのか、そもそもなぜ重要なのか。理解すると、時系列データの理解が深まります。
自己相関係数と偏自己相関係数とは
■自己相関係数
自己相関係数・・・元データから時差jとの相関
自己相関係数は、元データ yr と時差 j のデータ yt−j の相関関係を表します。これは基本的にデータ同士がどれだけ関連しているかを見る一番シンプルな指標です。
■偏自己相関係数
偏自己相関係数・・・他の時点の影響を取り除いた元データから時差jとの相関
一方、偏自己相関係数は、その他の時点の影響を取り除いた後の、元データ yt と yt−j の相関を計測します。要するに、偏自己相関係数は yt とyt−j の「純粋な」相関を測定します。
また、縦軸に自己相関係数または偏自己相関係数,横軸に時差jであるプロット図のことをコレログラムと呼びます。
なぜ偏自己相関係数を使うのか
なぜ偏自己相関を使うのでしょうか?
それは、自己相関では疑似相関の可能性があるからです。
イメージをあるあるの例に例えてみましょう。
例:学生のプレゼン発表会で解説
1,2,3週に分かれて3人ずつ発表する授業があったとしましょう。
1週目の人がもの凄い完成度の資料を完成させてきたとき、
真面目な生徒たちは
2週目の生徒「1週目の人たち凄すぎ…俺/私たちも資料作り頑張ろう!」
となったとします。所謂、1週目からハードルを上げ過ぎてしまった状態です。
そして、2週目の人たちは予定通り物凄い資料を完成させてきました。
そして、その影響もあってか3週目の人たちも素晴らしい資料を作ってきました。
さて、この時に1週目の人の資料の完成度と3週目の人の資料の完成度(=時差2)の自己相関係数はかなり高いです。
しかし、ここには2週目の人の資料の完成度(時差2)も影響していると思いませんか?
そこで、2週目の人の資料の完成度(時差1)の影響を取り除いた、真の1週目と3週目の資料の完成度の相関を見るために偏自己相関を用います。
自己相関係数と偏自己相関係数の解釈例
自己相関係数と偏自己相関係数の解釈例を用いてみましょう。
自己相関係数がラグ12で0.8と高い場合、データにはおそらく年次の周期性があることを示しています。これは、季節性の影響や年間を通じたパターンの存在を意味する可能性があります。一方で、偏自己相関がラグ11で-0.8と高い値を示しているということは、ラグ11の時点でのデータが、それ以前のラグによる影響を取り除いた後の値が強い負の関連を持っていることを意味します。つまり、ラグ1からラグ10までのデータの影響を考慮した上で、ラグ11のデータは予測に負の効果を与える可能性があるということです。
この二つの情報を合わせて考えると、データセットには明確な周期性があるが、特定のラグ間隔(この場合は11)でデータの予測値が反転する傾向があることを示しています。これは、季節性の影響を受けつつも、一定のラグの後には反対の動きをする因子があることを示唆しているかもしれません。時系列分析においては、このような情報を用いてモデルを調整することが重要です。
まとめ
時系列データ解析において、自己相関と偏自己相関は非常に重要な概念です。しかし、これら二つの用語はしばしば混同されがちです。この記事では、それぞれの概念とその違い、そしてその重要性について説明しました。
- 自己相関係数:元のデータとある時点での過去データとの相関を示します。基本的に、データ同士がどれだけ関連しているかのシンプルな指標です。
- 偏自己相関係数:他の時点の影響を除いた、元のデータとある時点での過去データとの「純粋な」相関を示します。これにより、疑似相関を排除することができます。
例として、学生のプレゼン発表会を取り上げました。1週目の発表の品質が高かったために、それに影響を受けた2週目、3週目も品質が高くなるというケースで、自己相関と偏自己相関の違いを具体的に説明しました。
また、書籍『Pythonによる時系列データ分析』からの例を引用して、実際のデータにおける自己相関と偏自己相関の解釈の仕方についても触れました。それにより、時系列データが本当に持っている周期性やトレンドを正確に把握するための手法について理解を深めました。
この知識を使えば、時系列データの背後に隠れたパターンや関連性をより正確に読み取ることができるでしょう。