一括で複数のCSVファイルをBigQueryにインポートする方法
この記事では、BigQueryに複数のCSVファイルを一括でインポートする方法と、テーブルスキーマの設定について詳しく説明しています。複数のファイルを個別に操作する手間を省くため、データを一度集約し、BigQueryに一括でインポートする手順を解説しています。また、BigQueryのテーブルスキーマの設定についても詳しく説明しています。
目次
Pythonで複数のCSVファイルを1つのCSVファイルに集約
まず、複数のCSVファイルを1つのCSVファイルにまとめます。これをしないと、インポート時にファイル数だけインポート作業をしなければならず、手間が増えてしまいます。同時に、BigQueryのテーブルスキーマ設定用のJSONファイルも作成します。テーブルスキーマは、データのカラム名とデータ型を指定します。最後に今回使用したプログラムを記載しています。
集約したCSVデータをGoogle Cloud Storageに保存
集約したCSVファイルをテーブルにインポートする際、ファイルサイズが大きい場合、ローカル環境からアップロードする方法ではエラーが発生する可能性があります。そのため、ファイルサイズに制限のないGoogle Cloud Storageにファイルを保存してからインポートすると円滑に処理できます。
BigQueryへインポート
BigQueryの「新規テーブル作成」機能を使用して、Google Cloud StorageにアップロードしたCSVファイルを指定して、BigQueryにインポートします。
以下は手順の要約です:
・テーブル名を指定
・ファイルの場所をGoogle Cloud Storageに設定
・インポートするファイル形式をCSVに設定
・最初に作成したテーブルスキーマを設定
・インポートを開始
参考サイト:Cloud Storage からの CSV データの読み込み | BigQuery | Google Cloud