外れ値の処理方法3選!

外れ値の処理の3つの方法についてご紹介します。
はじめに
外れ値とは、データセットの中で他のデータとは大きく異なる値を持つデータポイントのことを指します。外れ値の分析を行うことには、機械学習モデルの性能を向上させるだけでなく、データの背後にあるメカニズムや現象を理解する手助けになるといったうメリットもあります。本記事では、外れ値の処理によく用いられる3つの方法をご紹介します。
外れ値の処理方法3選
3σ法
3σ法とは、平均値から標準偏差の3倍以上離れている値を外れ値とする方法です。この方法では、特徴量ごとのデータ分布が正規分布に従うことを仮定しています。ただし、平均や標準偏差が外れ値を含む特徴量で計算されてしまうことが欠点です。
Hampel Identifier (HI)
Hampel Identifier とは、平均値の代わりに中央値、標準偏差の代わりに中央絶対偏差の1.4826倍を用いることで、ロバスト性を担保する方法です。この方法は、平均値や標準偏差が外れ値の影響を受ける、という問題を解決するために開発されました。
データ密度による検出法
複数の変数を同時に考慮したい場合、各サンプルのデータ密度を計算して、データ密度の低いサンプルを「外れサンプル」として検出する方法があります。具体的には、K近傍法で、k個の距離の平均値が大きいサンプルを外れ値とみなすというような方法です。
本記事では、「化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―(金子 弘昌(著))」の書籍を参考にしました。この本では、化学工学系のデータ処理で実際によく使われる統計解析について詳しく書かれています。
最後に
本記事では、外れ値の処理方法についてご紹介しました。これまで、データの前処理の段階で、「なんとなく」行っていた外れ値の扱いも、一度見直してみると新たな気づきがあるかもしれません。最後までご覧いただきありがとうございました。