Cloud Strageとは?基本概念を解説!

Cloud Storageは、CCPのオブジェクトストレージで、様々なデータファイル(オブジェクト)をバケットというコンテナに保存・管理できます。ここでは、Cloud Storageの基本概念やGCPの他サービスとの連携について説明します。
はじめに
Cloud Strageは、CCPのオブジェクトストレージです。あらゆる形式のデータファイルであるオブジェクトを、バケットと呼ばれるコンテナに保存して管理します。以下に、Cloud Strageの基本概念および他のGCPとのサービスとの連携について解説します。
Cloud Strageの基本概念
- フルマネージドでスケーラブル: ユーザ側でインフラの管理や運用を行う必要がなく、数個のファイルからエクサバイトの規模まで自動でスケールし、限りなく100%に近い年間耐久性を持つオブジェクトストレージを効率的にクラウド上に行うことができます。
- 高セキュリティ: すべてのCloud Strageのデータは、ディスクに書き込まれる前に、常にサーバ側で暗号化されます。この標準の暗号化の制御だけではなく、Cloud Key Management Serviceによって生成された鍵を使用すること、または、ユーザ側で独自に用意した暗号鍵を使用することもできます。また、データアクセス制御に関しては、Cloud Identity ans Access Management権限を使用し、Cloud Storage内のオブジェクトとバケットへのアクセスを制御できます。
- 優れたコスト効率性: Cloud Strageでは、可用性と最小保存期間に応じて、料金体系が異なる複数のストレージクラスが提供されています。データアクセス頻度や可用性などの要件に応じて、コスト効率性の観点で最適となるストレージクラスを選択できます。また、どのようなストレージクラスに対しても、同一の一貫したAPIでデータにアクセスできます。さらには、ライフサイクル管理の機能を使用することで、特定の条件に合致するオブジェクトを、自動的かつ効率的に操作したり、管理したりできます。
- 強整合性: Cloud Strageのいくつかのオペレーションでは、データとメタデータの両方を含め、グローバルな強整合性が確保されます。
他のGCPとのサービスとの連携
- Dataproc: Dataprocで構築されたHadoop/Sparkクラスタには、Cloud Strageコネクタというライブラリがデフォルトでインストールされています。これによりCloud Strageと連携でき、データをクラスタ内のHDFSではなく、Cloud Strageに保管します。
- BigQuery: BigQueryには、その外部に保存されているデータに対して、クエリを直接実行できる機能が備わっています。この機能を利用することで、BigQueryへデータをロードせずに、直接外部のデータを参照できます。この外部データソースに対するクエリの実行機能を利用することで、Cloud Storageで保存されているHiveテーブルのパーティションのデータに対して、BigQueryからクエリを実行して参照することもできます。
- Data Catalog: Data Catalogは、Google Cloudで構築されたデータ分析基盤のデータを管理して検索できるフルマネージドのメタデータ管理サービスです。Google社内でGoodsと呼ばれていたメタデータ管理サービスを元に構成されています。Data Catalogを利用すると、種類や量が日々増加し続けるデータを効率的に管理し、検索を行えるようになります。
まとめ
これらの機能により、Cloud Strageは、Google Cloudで構築されたデータ分析基盤の中心ストレージリポジトリとなるデータレイクとして最適です。