データ分析
2021/08/11
SiNCE 編集部

DWHを活用してビジネスに役立つデータ分析を!

インターネットの普及、情報通信技術やAI技術の進歩により様々なデータが計測されるようになりました。
ビジネスにおいては、ビックデータ解析のように、それらのデータを解析して有意義な示唆を得たり意思決定の根拠に用いるケースが増えています。

そんな中、「DWH」という言葉がよく使われるようになりました。
「DWH」とは簡単に言うとデータの倉庫であり、膨大なデータを分析する上で重要な役割をになっています。しかし、データベースとの違い、メリット・デメリットや主要なDWHがよく分からないという方もいると思うので、今回はDWHについて図解していきます!

  • 動画で図解を⾒る

導入 DWHとは?データベースやRDBとの違いとは?

そもそもDWHとは一体何なのでしょうか?

DWH(Data Ware House)とは、意志決定のため、目的別に編成された時系列に統合されたデータの集合体であり、1990年に米国のWilliam H. Inmon氏によって提唱されました。 もう少し簡単にいうと意思決定を目的としてデータを整理・蓄積したデータの倉庫ということです。

では、よく耳にするデータベースやRDBとの違いは何なのでしょうか? DWHとデータベースやRDBとの違いは、その目的と構造です。 DWHは意思決定の為に分析することを前提にしているのに対して、データベースやRDBはデータの保存や編集といった目的である場合が多いです。 構造に関しては、DWHは分析の時に不要なデータを読み込まないよう列単位でデータの処理を行います。 なのでデータ分析に適しています。

一方で、データベースやRDBは行単位でデータの読み込むので、データが膨大になると処理に時間がかかってしまい、データ分析に適していません。

課題 DWHに求められる機能とは?

このように、意思決定のためのデータ分析が行えるようなデータ倉庫であるDWHですが、どのような機能が求められるのでしょうか?


DWHに求められる機能は主に以下の4つがあります。
1. サブジェクトごとの整理
2. データの統合
3. 時系列で整理
4. データの保存
それぞれ解説していきます。


1. サブジェクトごとの整理
データには顧客、取引や販売に関するものなど様々なシステムから取得したデータがあります。
DWHではこれらの散在しているデータを1つのデータとして整理します。
例えば、商品ごとにデータを整理する場合、売上情報・在庫情報といった商品に関するデータをまとめて整理します。

2. データの統合
データの形式や表現方法による重複の削除や表現の統一をします。
例えば、顧客の区別をあるシステムでは登録したメールアドレスで、あるシステムでは会員IDで行っていた場合、DWHでは会員IDで統一して整理します。

3. 時系列で整理
ほとんどのデータベースではデータの更新履歴は保存されず、最新状態のデータを保持するように作られています。
一方でDWHは、データの更新履歴やデータの推移が時系列で把握出来るようになています。
これにより、データの分析をする際にデータの変化や差から意思決定に役立つ示唆を得ることが可能となります。

4. データの保存
データの倉庫と呼ばれるように、DWHは膨大な量のデータを保存します。
基本的に時系列でデータ分析が出来るように過去のデータも保存されます。
ただしデータ容量が限界になったら、容量を増やしたり不要なデータを削除する必要があります。

解決 DWHのメリット・デメリットとは?

DWHのメリット・デメリットはどのようなものがあるのでしょうか?
まずメリットですが主に2つあります。


1つ目は、データ収集・分析を簡単に行えることです。DWHは色々な機関システムからデータを集めて表現の統一や重複削除をを自動で行ってくれます。なので、分析者はデータごとの表現の違いを気にすることなく、分析作業を行うことが出来ます。

2つ目は、膨大なデータを高速処理できることです。DWHはデータベースやRDBとは違い、列ごとにデータの読込みを行うので、不要な列のデータを読込む必要はなく、高速でデータ処理が可能となります。


例えば、顧客のリピート率の分析を行う際に、平均購入金額やクーポン利用率を読込む必要が無いので、すぐに分析結果を得られます。

次にデメリットですが、既存の目的外での利用に向かないことです。DWHを設計する際は、どのような分析を行いたいのかをしっかり定めてから設計をします。それに基づいて、どのような項目をどのような表現でDWH内でデータ保持するのかが決まっていますので、目的外の分析を行うことが難しくなっています、

結論 オススメのDWH4選!

多くの実績があるオススメのDWHを紹介していきます。
1.BigQuery
Google社の提供するDWHです。
特徴としては、超高速でデータ解析出来ることです。何百TB(1TB=1,000GB)という膨大なデータ量でも、サーバーの分散並列処理によって数秒~数十秒で処理が出来ます。


またGoogle Cloudと簡単に連携ができたり、データベースに関しての専門知識が無くても利用することが出来ます。


2.trocco
troccoは株式会社primeNumbeが提供するDWHです。ドラッグ&ドロップで操作できる7種類のテンプレートと好みのプログラミング言語で書けるデータ統合システムがあったり、顧客専任の担当によるサポートが充実していることが特徴です。


3.b→dash
b→dashは株式会社データXが提供するDWHです。
特徴としては、SQLといったプログラミング言語が不要のノーコードのサービスとなっており、ドラッグ&ドロップといった直感的な操作で管理出来ることです。また1機能5万円からという低価格なことも魅力です。


4.Amazon Redshift
Amazon社が提供するDWHです。
特徴としては、Amazonの高度なセキュリティーに守られていることやデータ管理をクラウド上で行ってくれるので自社PCの障害に影響されずに処理を行えることです。


特にオススメなのが、Google社のBigQuelyです。
専門知識が無くても高性能なDWHを利用出来ることが可能です。またクラウドサービスとなっているので、システムの信頼度も高いです。


もしもDWHを利用しようと思っている方は是非一度導入の検討をしてみてくださいね!

New call-to-action