DataFrameの週単位や月単位のデータ集計
DataFrameの週単位や月単位のデータ集計
目次
特徴量エンジニアリング「.resample()」メソッド
AIや機械学習のモデルを実装する際に必要不可欠な作業に特徴量エンジニアリングがあります。これはAIモデルの予測精度を向上させるために、予測に必要な特徴量をデータから作成する作業です。この特徴量エンジニアリングをする際、特徴量として特定期間の平均値や標準偏差などの基礎的な統計量がよく使われます。
今回は特徴量エンジニアリングで、dfから週単位や月単位の統計量を算出する時に役にたつ.resample()メソッドを解説します。
.resample()メソッドの使い方_基本形
DataFrameを週単位や月単位で集計するには、.resample()メソッドを使用します。このメソッドの基本形は下記のようになります。
df.resample(’集計期間’).集計メソッド
集計期間は月単位や週単位だけではなく四半期ごとやn日ごとなどの集計も可能です。
具体的な実装方法について
具体的な集計方法を解説するため、下記のようなデータの週単位と月単位の統計量(平均値、標準偏差、最大値、最小値)を算出していきます。
日時データを月次データへ
あるDataFrameの月単位の統計量は次のように集計します。
df.resample(“M”).mean() #月単位の平均値
df.resample(“M”).std() #月単位の標準偏差
df.resample(“M”).max() #月単位の最大値
df.resample(“M”).min() #月単位の最小値
これらの実行結果が下記になります。日時データから月次データになりました。
日時データを週次データへ
あるDataFrameの週単位の統計量は次のように集計します。
df.resample(“W”).mean() #週単位の平均値
df.resample(“W”).std() #週単位の標準偏差
df.resample(“W”).max() #週単位の最大値
df.resample(“W”).min() #週単位の最小値
これらの実行結果が下記になります。日時データから週次データになりました。
特徴量エンジニアリングを効率的に実装する「.resample()」メソッド
今回、dfから週単位や月単位の統計量を算出できる.resample()メソッドを紹介しました。各単位の統計量が一行で算出できるので特徴量エンジニアリングが効率良く実装でき、コードの可視性も向上すると思います。ぜひ使ってみてください。