Optunaを活用したlightGBMのハイパーパラメータのオートチューニング

2023/01/24

飯沼佑太

Optunaを活用したlightGBMのハイパーパラメータのオートチューニング

OptunalightGBMハイパーパラメータlgb.LightGBMTunerCVオートチューニング最適値

01一番精度が高く計算量が少ないオートチューニング
02具体的な実装方法1_外部ライブラリのインストール
03具体的な実装方法2_パラメータの最適値の探索
04具体的な実装方法3_最適なパラメータ値の反映
05まとめ_交差検証でのパラメータの探索が簡単に

一番精度が高く計算量が少ないオートチューニング

機械学習モデルの実装の際に必ず必要になってくる作業にハイパーパラメータのチューニング作業がある。これらは、各ハイパーパラメータの値を変動させ一番モデル精度の高い値を探す作業で手作業でやると日が暮れてしまう作業である。近年、グリッドサーチなど様々なチーニング方法があるが今回は一番精度が高く計算量が少ないOptunaを活用したオートチューニングを紹介する。これ以降の解説は、lightgbmでの実装が一通り完成していることを前提に解説します。

こんな人に読んでほしい

– 最近、機械学習やAIの勉強を始めた方
– Kaggleなどのデータ分析コンペで上位を目指したい方
– 効率の良いチューニング方法を知りたい方

具体的な実装方法1_外部ライブラリのインストール

下記コマンドを実行しOptunaの外部ライブラリをインストール・インポートしてください。注意点として、Optunaを使用する場合Lightgbmを扱うためのライブラリも変わるため、気をつけてください。一般的なlightgbmのライブラリではオートチューニングの実装ができません。今回、交差検証を行いながらオートチューニングをしていくので、sklearnのKFoldもインポートしてください。

!pip install lightgbm 

!pip install optuna 



from sklearn.model_selection 

import KFold 

import optuna.integration.lightgbm as lgb

具体的な実装方法2_パラメータの最適値の探索

lightgbmのモデル実装の部分を下記リンクに変更します。paramsでは最低限のモデル設定を行います。今回は回帰モデルをmseで評価していくため、paramsを下記のように設定しました。 lgb.LightGBMTunerCVでパラメータと扱うデータの宣言をし、tuner.run()を実行しパラメータの探索を行います。実際に探索したパラメータの最適値の詳細はbest_paramsに格納されています。

params = {

'objective': 'regression',

'metric': 'mse',

}

# trainval：学習用データと検証用データをlgb.Dataset()でデータセット化したものです。
# folds=KFold(n_splits=3)：交差検証を行う設定、n_splitsで分割数を設定

tuner = lgb.LightGBMTunerCV(params, trainval,

verbose_eval=100, early_stopping_rounds=100,

folds=KFold(n_splits=3))

tuner.run()

# サーチしたパラメータの表示

best_params = tuner.best_params

print(" Params: ")

for key, value in best_params.items():

print(" {}: {}".format(key, value))

こちらが実際にbest_paramsに格納されている値です。今回のデータセットに対してのハイパーパラメータの最適値がこのように格納されています。

具体的な実装方法3_最適なパラメータ値の反映

先ほど見つけたパラメータの最適値を実際のモデル実装に反映させます。下記のようにlightgbmのパラメータ設定をする箇所にbest_paramsを設定します。

model = lgb.train(best_params, trains, valid_sets=valids,

verbose_eval=100, early_stopping_rounds=100)

まとめ_交差検証でのパラメータの探索が簡単に

今回はOptunaを活用したlightGBMのハイパーパラメータのオートチューニングを紹介しました。交差検証でのパラメータの探索が簡単にできるので、是非活用してみてください。

Data Driven Knowledgebase

Optunaを活用したlightGBMのハイパーパラメータのオートチューニング

目次

一番精度が高く計算量が少ないオートチューニング

具体的な実装方法1_外部ライブラリのインストール

具体的な実装方法2_パラメータの最適値の探索

具体的な実装方法3_最適なパラメータ値の反映

まとめ_交差検証でのパラメータの探索が簡単に

SQLで時系列データを特徴量モデリングしてみた

自社の年賀状用画像を、画像生成AI「Stable Diffusion」で作ってみた～環境構築編

Pythonで実装するSVM。AI初心者でもわかる機械学習アルゴリズムの基礎と実装

【経験談】Dataikuの魅力とは？ビジネスユーザーも簡単に使えるデータ分析プラットフォームを紹介

商品レビューデータからTF-IDFベクトルを抽出し、JSONファイルに書き出す方法

目次

一番精度が高く計算量が少ないオートチューニング

具体的な実装方法1_外部ライブラリのインストール

具体的な実装方法2_パラメータの最適値の探索

具体的な実装方法3_最適なパラメータ値の反映

まとめ_交差検証でのパラメータの探索が簡単に

あわせて読みたい

SQLで時系列データを特徴量モデリングしてみた

自社の年賀状用画像を、画像生成AI「Stable Diffusion」で作ってみた～環境構築編

Pythonで実装するSVM。AI初心者でもわかる機械学習アルゴリズムの基礎と実装

【経験談】Dataikuの魅力とは？ビジネスユーザーも簡単に使えるデータ分析プラットフォームを紹介

商品レビューデータからTF-IDFベクトルを抽出し、JSONファイルに書き出す方法