AI
2023/04/06
上野 桃香

DataikuでBigQueryのデータを分析!簡単な連携方法と使い方を解説

この記事では、Dataiku DSSとBigQueryを連携してデータを取得する方法について解説しています。具体的には、サービスアカウントを使用した接続方法やデータ取得の手順を紹介し、注意点も記載しています。データ分析において効率的で安全な方法を選択することが重要です。ぜひ、今回の方法を参考にしてください。

はじめに

Dataiku DSSでは様々な方法でデータを取得できます。

その中でも今回はBigQueryからデータを取得する方法について解説しようと思います。

ある設定を最初にしてしまえば以下のようにBigQueyのデータを取得できます。(公式ドキュメントはこちらからどうぞ)

<BigQueyのデータを取得手順>

最初のフロー画面

最初のフロー画面

右上の「+DATASET」→「SQL databases」→「Google BigQuery」を選択する

手順

Connectionを選択し、BIgQueyからインポートしたいデータを選択する

※Connectionは後ほど設定の仕方を解説します。

手順

DataikuのはConnectionという概念があるんですよね。

このConnectionを設定してあげることで上の写真のようにデータの選択画面が開けます。

まず最初にGoogle BigQueyを選択するとConnectionを作ってくださいという指示が出ると思います。

次の章でConnectionの設定の仕方について解説します。

Connectionの設定方法

Dataiku DSSは、BigQueryにサービスアカウントまたはOAuth2を使用して接続することができます。

今回はサービスアカウントを通して認証を行いたいと思います。

OAuth2を使用した認証手順の詳細は公式ドキュメントに記載されています。

<手順>

Google BigQueyを選択するとConnectionを作ってくださいという指示が出ていたらそのリンクをクリックしてここのページに行きましょう。

もしくは自身でDSSの設定から「settings」に行き右上の「+NEW CONNECTION」ボタンをクリックしましょう。



「Google BigQuery」を選択します。



Connectionの設定画面が現れます。

Connectionの名前、プロジェクトIDを設定し、Private keyを選択したらPraivate key(サービスアカウントキー)のファイルパスか直接ファイルの中身を記載できます。

※サービスアカウントのファイルパスはローカルではなくDSSサーバーにファイルをアップし、そのファイルパスを選択しなければいけません。



以上で必要最低限の設定は終了です。

左下の「TEST」で試しで実行し、エラーが出ないか確認できます。

もし問題なさそうだったら「CREATE」ボタンをクリックしましょう。

BigQueryからデータを取得

テーブル名、プロジェクト名、データセット名を入力します。

もしくは「GET TABLES LIST」でテーブル一覧を表示してくれます。SQLのクエリを直接書くこともできますね。



<注意点>

サービスアカウントを使用している場合:所得したいデータのテーブルに対してサービスアカウントが権限を持っていないと取得できない。

→GCPのBigQueryでデータの詳細からサービスアカウントに「BigQuery編集者」などの権限を付与

まとめ

今回はサービスアカウントを通してDataikuにBigQueryからデータを取得する方法をご紹介しました。

いくつかの注意点がありますので、再度確認しておきましょう。

1.サービスアカウントの作成時に、必ずBigQueryの権限を付与するようにしてください。

2.取得するデータ量が大きい場合は、データの抽出や転送に時間がかかることがあります。必要なデータのみ取得するなど、効率的な方法を検討してください。

3.セキュリティ上の観点から、サービスアカウントの秘密鍵ファイルを外部に漏らさないように注意してください。

以上が、DataikuとBigQueryを組み合わせてデータを取得する方法のまとめです。データ分析において、効率的で安全な方法を選択することが重要です。ぜひ、今回の方法を参考にしてください。

New call-to-action