モデルの評価指標をマスターしよう【回帰編】
モデルの評価指標をマスターしよう【回帰編】
回帰モデルの予測の性能を測るための指標を解説します!
はじめに
回帰や分類のモデルを学習させた後は、その予測値の評価を行います。評価するための指標として、決定係数やRMSE(平均二乗誤差)など、色々なものがありますが、「なんとなく」選んではいませんか?本記事では、モデルの評価に使われる指標を包括的に紹介したいと思います。
それぞれの評価指標の違いを理解することで、その都度目的に合ったものを使い分けられるといいですね!今回は、回帰編ということで、回帰モデルの予測の性能を測るための指標を取り上げます。
決定係数
決定係数は、「モデルがデータをどの程度説明できているか」を示す指標です。0から1の値を取り、一般的には、1に近いほど良いモデルとされます。これは、「学習させたモデルが、与えられたデータの100%を説明できている」のように考えるためです。しかし、1に近いモデルは過学習を示すこともあるため、注意が必要です。決定係数の計算式は以下の通りです。
平均絶対誤差(MAE)
平均絶対誤差は、実際の値とモデルの予測値の誤差の絶対値の平均を表し、数式は次のとおりです。この値は小さい方がいいモデルとなります。
平均二乗誤差(RMSE)
RMSEは、予測値と実際の値の平均二乗誤差の平方根をとったもので、計算式は以下の通りです。
機械学習コンペティションでよく使われる指標となっています。平均絶対誤差(MAE)と同様に、小さいほどモデルの性能は良いと言えます。平均絶対誤差(MAE)との違いとしては、誤差を二乗するため、大きな誤差の影響をより強く受けることになります。
平均二乗対数誤差(RMSLE)
平均二乗対数誤差(RMSLE)は次のような式で計算される指標です。上述の平均絶対誤差(MAE)や平均二乗誤差(RMSE)と同様に、値が小さいほど良いモデルと言えます。
平均二乗誤差(RMSE)は、誤差が大きいほど過大に評価するため、外れ値に敏感になりました。それとは、対照的に平均二乗対数誤差(RMSLE)は、対数をとることで、誤差を過大に評価しないような指標となっています。
最後に
以上、本記事では、回帰モデルの評価に使用される、決定係数、平均絶対誤差(MAE)、平均二乗誤差(RMSE)、平均二乗対数誤差(RMSLE)の4つの指標をご紹介しました。次回は、分類モデルの評価に使用される指標について取り上げたいと思います。