Snowpark for Python環境構築の手順

この記事では、Snowpark for Pythonの環境構築手順を説明します。Snowparkは、SnowflakeデータウェアハウスとPythonを統合するための便利なツールであり、データのクエリや分析をPythonで行うことができます。以下の手順に従って、Python 3.8の仮想環境を作成し、Snowparkをセットアップしましょう。
目次
はじめに
この記事では、Snowpark for Pythonの環境構築手順を詳しく説明します。Snowparkは、SnowflakeデータウェアハウスとPythonを統合するための便利なツールであり、データのクエリや分析をPythonで行うことができます。以下の手順に従って、Python 3.8の仮想環境を作成し、Snowparkをセットアップしましょう。
1. Python 3.8の仮想環境を作成する
最初に、Python 3.8の仮想環境を作成します。これは、Snowparkを実行するための基本となる環境です。anacondaをインストール後、以下のコマンドを実行して、仮想環境を作成します。
conda create --name py38_env --override-channels -c https://repo.anaconda.com/pkgs/snowflake python=3.8 numpy pandas
2. Snowpark Pythonパッケージをインストールする
次に、Snowpark Pythonパッケージを作成した仮想環境にインストールします。以下のコマンドを実行します。
conda install snowflake-snowpark-python
3. Jupyterノートブックのインストールと起動
Snowparkを使用するためには、Jupyterノートブックも必要です。以下のコマンドでJupyterノートブックをインストールし、起動します。
conda install notebook
jupyter notebook
Jupyterノートブックが起動したら、次に進みましょう。
4. Snowpark for Pythonのセッション作成
Snowparkを使用するためには、セッションを作成する必要があります。以下の手順に従ってセッションを設定します。
4.1 必要なクラスをインポート
まず、必要なクラスをインポートします。
from snowflake.snowpark import Session
4.2 コネクションパラメーターの記述
テキストファイルに、Snowflakeアカウントの接続情報を記述します。
{
"account": "アカウント識別子",
"user": "ユーザー名",
"password": "パスワード",
"role": "ACCOUNTADMIN",
"warehouse": "データウェアハウス名"
}
※以下のアカウントタブからアカウント識別子をコピーできます。
4.3 セッションを作成
以下のPythonコードを使用して、セッションを作成します。コネクションパラメーターを含むテキストファイルを読み込んでセッションを設定します。
import json
session = Session.builder.configs(json.load(open("snowpark.json"))).create()
特にエラーが表示されなければ、セッションオブジェクトの作成は成功です。
5. データにアクセスしてみる
最後に、実際にデータにアクセスしてみましょう。以下のコードは、データウェアハウスからデータを取得し、最初の10行を表示する例です。
※こちらのデータは事前に作成したトランザクションに関するサンプルデータとなります。
tableName = "TRANSACTIONS_DATA"
df = session.table(tableName).limit(10)
df.show()
これで、Snowpark for Pythonの環境がセットアップされ、データへのアクセスが可能になりました。必要に応じて、Snowflakeデータウェアハウスでデータのクエリや分析をPythonを使用して行うことができます。