AI
2026/04/02
山口 晴史

Dataikuの残差分析(Residual Analysis)でモデルの予測精度を読み解く

Dataikuの残差分析(Residual Analysis)の見方を解説。残差の基本概念から、統計量テーブル・残差分布・Q-Q Plotの各項目の読み解き方までを紹介します。

はじめに

Dataikuでモデルを作成した後、「モデルの予測がどれくらい正確か」を確認することは非常に重要です。しかし、R²やRMSEといった評価指標の数値だけでは、モデルがどのような傾向で間違えているのかまでは分かりません。 そこで役立つのが残差分析(Residual Analysis)です。残差分析を活用することで、モデルの予測の偏りやパターンを視覚的に把握でき、改善の方向性を見つけることができます。 この記事では、残差の基本的な考え方から、Dataikuの残差分析画面の各項目の見方、そして実際の分析結果から何が読み取れるのかまでを解説します。

残差とは何か?

残差(Residual)とは、実測値と予測値の差のことです。


計算式は非常にシンプルで、「残差 = 実測値 − 予測値」です。


例えば、ある商品の売上が実際には5,000だったのに対し、モデルの予測が5,300だった場合、残差は-300になります。逆に予測が4,700だった場合、残差は300です。


残差がプラスの場合はモデルが実測値より高く予測している(過小予測)ことを意味し、マイナスの場合は実測値より低く予測している(過大予測)ことを意味します。


理想的なモデルでは、残差は0に近く、プラスとマイナスが均等に分布します。残差に偏りやパターンがある場合、モデルに何らかの改善の余地があることを示しています。


残差分析とは何か?

残差分析とは、モデルが出した残差の全体的な傾向やばらつきを調べることで、モデルの予測品質を評価する手法です。


単に「誤差がどれくらいあるか」を見るだけでなく、「誤差に偏りはないか」「極端に大きな誤差はないか」「誤差の分布は正規分布に近いか」といった観点からモデルを多角的に評価します。


Dataikuでは、モデルの結果画面で「Residuals」を選択すると、残差に関する統計量やグラフが自動的に表示されます。

残差の統計量テーブル

画面上部に表示されるテーブルには、残差の分布を数値で把握するための統計量が並んでいます。


Min.(最小値):最も大きくマイナスに振れた残差です。つまり、モデルが最も過大予測したケースの誤差を示します。


Max.(最大値):最も大きくプラスに振れた残差です。モデルが最も過小予測したケースに該当します。


Median(中央値):残差を大きさ順に並べたときの真ん中の値です。0に近ければモデルの予測に大きな偏りがないことを示します。


Average(平均値):全残差の平均です。0から離れている場合、モデルに系統的な予測バイアスがあることを意味します。


Standard deviation(標準偏差):残差のばらつきの大きさを示します。値が小さいほど予測が安定しています。


パーセンタイル(2nd, 25th, 75th, 90th, 98th):残差の分布の広がりを段階的に把握するための値です。例えば、2ndパーセンタイルと98thパーセンタイルの差が大きい場合、極端な誤差が存在することを示します。


下記の写真は、作成しモデルにおける残差の統計量テーブルです。

残差分布(Residuals distribution)

残差をヒストグラム(棒グラフ)で表示したものです。横軸が残差の値、縦軸がその残差の出現割合を示します。理想的には、0を中心とした左右対称のベル型(正規分布)になることが望ましいです。ピークが0からずれている場合は予測バイアスがあり、左右のどちらかに裾が長く伸びている場合は、一方向に極端な誤差が発生していることを示します。

オレンジの曲線はカーネル密度推定(KDE)と呼ばれるもので、ヒストグラムを滑らかにした分布の形状を示しています。


下記の写真は、作成しモデルにおける残差分布のヒストグラムです。

統計的検定値

Jarque-Bera:残差が正規分布に従っているかどうかを検定する統計量です。p-valueが0.05未満であれば、残差は正規分布ではないと判断されます。


Skewness(歪度):分布の左右の非対称性を示します。0に近ければ対称、正の値なら右に裾が長く、負の値なら左に裾が長い分布です。


Kurtosis(尖度):分布の裾の重さを示します。正規分布の場合は3で、3より大きい場合は裾が重く極端な値が多いことを意味します。


下記の写真は、作成したモデルにおける統計的検定値の一覧です。

Normal Q-Q Plot

Q-Q Plot(Quantile-Quantile Plot)は、残差が正規分布に従っているかを視覚的に確認するためのグラフです。

横軸が「正規分布だった場合に期待される値」、縦軸が「実際の残差の値」です。点がオレンジの直線上に乗っていれば残差は正規分布に従っています。直線から外れている部分は、正規分布からの逸脱を示しており、特に両端で大きく外れている場合は、極端な外れ値が存在することを意味します。


下記の写真は、作成したモデルにおけるNormal Q-Q Plotです。

今回の結果から分かること

今回のモデルの残差分析結果から、以下のことが読み取れます。


残差の平均が0ではない:残差の平均が-56.948であり、中央値も-53.065とマイナス側にずれています。これは、モデルが全体的にやや高めに予測する傾向があることを示しています。


残差のばらつきに偏りがある:最小値が-1,864.0、最大値が1,290.5であり、マイナス方向への振れ幅の方が大きくなっています。2ndパーセンタイル(-474.65)と98thパーセンタイル(391.63)を比較しても、マイナス側の方が絶対値が大きいことが確認できます。


残差は正規分布に従っていない: Jarque-Bera検定の値が8,410(p-value = 0)であり、残差が正規分布ではないことが統計的に示されています。Skewnessが0.001907とほぼ0であるため左右の非対称性は小さいですが、Kurtosisが9.616と正規分布の基準値(3)を大きく上回っており、極端な誤差の発生頻度が高いことを示しています。


Q-Q Plotでも両端に逸脱が見られる:Q-Q Plotにおいて、両端の点がオレンジの直線から大きく外れています。特に左下側の逸脱が顕著であり、大きなマイナス方向の残差が正規分布の想定よりも多く存在していることが確認できます。


まとめ

残差分析は、評価指標の数値だけでは見えないモデルの「癖」を明らかにしてくれる重要な分析手法です。Dataikuでは、モデル作成後に数クリックでこれらの分析結果を確認できるため、モデルの改善サイクルを効率的に回すことができます。

残差分析の各項目を正しく読み解くことで、モデルの予測にどのような傾向や課題があるのかを客観的に把握し、次の改善アクションにつなげていきましょう。

New call-to-action