データ分析
2022/12/01
SiNCE 編集部

AWSからデータを一括ダウンロードする方法

AWSコンソールからデータをダウンロードをしようとすると、ファイルを手動で1つずつしかダウンロードできないという規制がかかってしまいます。
そこで今回はファイルを一括で送信する方法を解説します。

データを一括送信する2つの方法

AWSからデータを一括で送信するには主に2つの方法があります。

1.ローカルにファイルを落とす

2.BigQuery とAWSを連携をしてデータを作成する方法

定期的なダウンロードが必要な場合は2が推奨されるが、方法次第では有料、テーブルの制限などあり、今回はモデル構築なので1を選択。

定期的なダウンロードが必要な場合は2の方法が推奨されますが、方法次第では有料又はテーブルの制限などがあります。

今回はモデル構築をするためのデータのダウンロードということを前提に1の方法を解説していきます。

今回参考にさせていただいたサイトは以下のサイトです。

https://dev.classmethod.jp/articles/bq-access-s3/

1. AWS CLI環境構築

BigQuery とAWSを連携をしてデータを作成する方法

まず最初にAWS CLI環境を構築する必要があります。

ローカルに一括でダウンロードするにはターミナルにてコマンドラインで操作する必要があります。

GUIを構築することでコマンドラインを使用せずに、ダウンロードをすることもできますが、今回はAWSの開発をするわけではないのでコマンドラインでの操作を行います。

1.https://awscli.amazonaws.com/AWSCLIV2.pkgでインストーラをダウンロード

2.インストーラーをダブルクリックして実行し、手順に従ってインストールする

3.ターミナルを起動し、「which aws」でawsコマンドが実行できるかを確認する

確認できたら、AWS CLIの環境の構築が完了です。

2. AWS CLIの構成

BigQuery とAWSを連携をしてデータを作成する方法

AWS CLIの環境を用意出来たら、アクセス情報を設定する必要があります。

そのためには以下の情報が用意されているかを確認してください。これらの情報は漏洩に注意してください。

・アクセスキーID

・シークレットアクセスキーID



1.ターミナルを起動し、ホームディレクとりに移動してから以下のコマンドを実行



2.アクセスキーとシークレットアクセスキーを入力



これでAWS CLIの構成が完了しました。次はAWSからのファイルのダウンロードです。

3. AWSからファイルをダウンロード

BigQuery とAWSを連携をしてデータを作成する方法

aws s3 cp コマンドを利用してダウンロードしていきます。



<sourrce>:コンソールからS3URLを取得して指定する

<target>   :DLするディレクトリを指定

[–options]  :–recursiveで一括DLを指定



以下のように動作すれば成功です。

20GB程度で30min~60minかかります。

まとめ

以上でAWSからデータを一括でダウンロードする方法でした。最初はコマンドラインを操作するのは難しいそうに見えるかもしれませんが、GUIなどでやるよりもコマンドラインの方が工数が少なく済む場合もあります。今回の記事を参考にぜひ挑戦してみてください。

New call-to-action