データ分析
2023/08/24
與田 龍人

ChatGPT Code Interpreterを使って簡単なデータ分析を行う方法「タイタニックの生存者予測」

logo_ChatGPT

ChatGPT Plusで提供されている Code Interpreterを使用して、簡単にタイタニック号の生存者予測を行う方法を紹介します。

はじめに

データ分析を行う際には、データの前処理やモデルのトレーニング、予測など、多くのステップが含まれます。今回はChatGPT Plusで提供されている Code Interpreterを使用して、簡単にタイタニック号の生存者予測を行う方法を紹介します。

データの読み込み

まず、分析対象のkaggleデータセットからタイタニックのトレーニングデータとテストデータを読み込ませ、Code Interpreterに対して、予測に使用するモデルと予測対象について簡略的な指示を出します。

データの理解


  • 上記のように指示を与えると、Code Interpreterはデータを確認します。

  • Code Interpreter内では「Show work」を展開することで実際の処理内容とコードを確認することができます。

前処理の実施

Code Interpreterはデータを確認した後、実際に前処理を行います。(欠損値の補完、カテゴリ変数のエンコーディング、不要なカラムの削除)

モデルのトレーニング

モデルのトレーニングに関する確認に対し、同意の意思を示すと、以下のようにトレーニングデータの予測精度を提示してくれます。

予測

テストデータに対する予測を行い,予測結果の最初の5行を表示しています。ここまで1つの指示と作業進行の確認のみで予測まで行うことができました。

最後に

Code Interpreterは、データ分析の初期段階から最終的な予測までの一連の流れをサポートする強力なツールです。しかし、その機能は単なる基本的なデータ分析だけにとどまりません。


Code Interpreterは、さまざまなグラフやチャートを簡単に描画することができます。さらに、新しい特徴の生成や既存の特徴の変換など、高度な特徴量エンジニアリングを行うことができます。また、上記で使用してランダムフォレストモデル以外にも、ロジスティック回帰、サポートベクターマシン、勾配ブースティングなど、多様な機械学習モデルを試すことができます。最適なモデルを選定するために、クロスバリデーションやグリッドサーチなどの技術も簡単に実装できます。これらの機能を活用することで、Code Interpreterはデータ分析のプロセス全体を効率的に、かつ高い精度でサポートします。

New call-to-action