正しい予測のために：機械学習のリークとは？

2026/02/25

山口晴史

正しい予測のために：機械学習のリークとは？

モデル開発において、「手元のテストデータでは非常に高い精度が出たのに、本番環境に導入すると予測があまり当たらない」というケースは少なくありません。このような事態を引き起こす代表的な原因のひとつが「リーク」です。今回は、データ分析において必ず知っておくべきリークの概念と、その防ぎ方について分かりやすく解説します。

データサイエンス機械学習AI

リークとは何か？

機械学習におけるリークとは、「本来、予測を行う時点では知ることができない未来の情報」が、モデルの学習データに混入してしまう現象を指します。

分かりやすく例えるなら、「明日受ける予定のテストの解答を見ながら、今日の模擬テストを解いている状態」です。答えを知っているため、手元のテストでは簡単に100点が取れます。しかし、答えを見ることができない本番のテスト（実運用環境）では、実力がないため全く点数が取れなくなってしまいます。

AIがデータの法則を正しく学習したわけではなく、単に結果に直結する「答え」を暗記してしまっただけの状態と言えます。

リークの具体例

リークは、データの抽出や加工の過程で、無意識のうちに発生することが多くあります。ビジネスの現場で起こりやすい3つの具体例を見てみましょう。

・例1：退会予測モデルにおける「解約関連データ」の混入

「来月、サービスを退会しそうな顧客」を予測するモデルを構築するとします。このとき、予測に使うデータの中に「退会手続きページの閲覧回数」や「退会完了メールの受信履歴」を含めてしまうケースです。予測したい時点ではまだ発生していないはずの未来の行動が含まれているため、AIは「退会ページを見た人は退会する」という無意味なルールを学習してしまいます。

・例2：明日の売上予測における「実際の結果」の混入

店舗の明日の売上を予測する場合、本来使用すべきデータは「明日の天気『予報』」です。しかし、過去のデータから学習させる際に、誤って「その日の『実際の』降水量」を使ってしまうことがあります。明日の実際の天気は、明日が終わるまで知ることはできないため、これもリークとなります。

・例3：病気の診断予測における「処方箋データ」の混入

ある患者が特定の病気にかかっているかを予測する際に、「その病気専用の薬が処方されたか」という履歴データを混ぜてしまうケースです。薬の処方は医師が病気だと診断した「後」に行われるため、予測時点では知り得ない情報であり、実質的に答えを教えていることになります。