【最速レビュー】BigQueryデータ準備(Introduction to BigQuery data preparation)を使ってみた

2024年10月25日、GoogleCloudは新機能である「BigQueryデータ準備(Introduction to BigQuery data preparation)」を正式にリリースしました。この機能は、AI技術Geminiを活用してデータクリーニングや変換、エンリッチメントを自動化し、データパイプライン構築にかかる手間を大幅に削減することが目的です。この記事では、この機能を実際に試してみた体験を基に、その使い方と感想をお届けします。
目次
はじめに
2024年10月25日、Google Cloudは新機能である「BigQueryデータ準備(Introduction to BigQuery data preparation)」を正式にリリースしました。この機能は、AI技術Geminiを活用してデータクリーニングや変換、エンリッチメントを自動化し、データパイプライン構築にかかる手間を大幅に削減することが目的です。この記事では、この機能を実際に試してみた体験を基に、その使い方と感想を最速でお届けします。
Introduction to BigQuery data preparationとは?
BigQueryデータ準備(Introduction to BigQuery data preparation)は、BigQuery Studio内でGeminiを利用したデータ変換が利用できる新しいリソースで、AIを使ってデータをクリーニングし、必要な変換やエンリッチメントの提案を行うツールです。特に、以下のようなデータ準備のサポートが含まれています。
・データの標準化
・欠損値の処理
・データのエンリッチメント
この機能により、手動でSQLクエリを書く手間が減り、データパイプラインの開発が効率化されます。
1. データ準備の開始
実際にデータ準備を使っていきましょう、BigQuery Studioにログインし、新規作成メニューから「データの準備(Introduction to BigQuery data preparation)」を選択。最初に使用するテーブルを選びます。以下の画像が、データ準備を開始した際の画面です。
ここでは、トランザクションデータを使ってデータ準備を行いました。自然言語でデータを検索し、該当のテーブルを選択した後、Geminiによる提案が表示されました。
2. データのプレビューと提案
データ準備の画面には、選択したテーブルのサンプルデータが表示され、各列の上部には簡単な統計情報(ヒストグラム)が表示されます。また、右側の提案パネルでは、Geminiからの提案が確認できます。
ここでは、以下のような提案がありました:
TransactionDate
列がNULL
でない行を残すProductName
列がNULL
でない行を残す
これらの提案は、プレビューを確認した後、「適用」をクリックすることで簡単に反映されました。また右下のタブから結合やフィルタなど追加のステップを定義すること可能です。
3. ワークフローの視覚化
データ準備のもう一つの便利な機能として、全体のワークフローをグラフビューで確認できる「ワークフロー(Workflow)」があります。ノード形式で各ステップが視覚的に表示され、データ処理の流れを簡単に把握することができます。
SQLクエリやPythonノートブックなど、他の処理とも簡単に統合できるため、データ準備以外のタスクにもシームレスに対応できる点が魅力的です。
4. インクリメンタル処理の設定
BigQueryデータ準備では、インクリメンタル処理を設定することができ、新しいデータのみを追加で処理することが可能です。これにより、既存のデータを再処理する必要がなく、処理時間とコストの両方を最適化できます。
最後に
実際にBigQueryデータ準備(Introduction to BigQuery data preparation)を使ってみた感想として、Geminiの提案機能が非常に便利でした。特に、データのクレンジングやフィルタリングに関する提案は、手動でSQLを書かなくてもボタン一つで適用できる点が優れていると感じました。また、データパイプラインの処理フローを視覚的に確認できる「ワークフロー」機能も、全体像を把握するのに非常に役立ちました。
この新機能を使うことで、今後のデータパイプライン開発が大幅に効率化されることは間違いありません。データエンジニアやアナリストにとって、エンジニアリンングの効率化するために機能の一つとして、ぜひ使ってみてください。