【databricks】ダッシュボードGenieスペース使ってみた
今回はdatabricksのダッシュボードで使用できるGenieスペースによってグラフを作成してみました。ダッシュボード上でのGenieスペースとはユーザーが自然言語を使用して作成してほしいグラフを要求するとdatabricks側が自動でグラフを作成してくれる機能のことです。今回のブログでは様々な要求をしてどこまで答えてくれるのか確認していきます。
はじめに
今回はdatabricksのダッシュボードで使用できるGenieスペースによってグラフを作成してみました。ダッシュボード上でのGenieスペースとはユーザーが自然言語を使用して作成してほしいグラフを要求するとdatabricks側が自動でグラフを作成してくれる機能のことです。今回のブログでは様々な要求をしてどこまで答えてくれるのか確認していきます。
概要
databricksダッシュボード作成画面でビジュアライゼーションを作成すると以下のような項目が作成されます。
赤枠で囲まれてたアシスタントにチャートの作成を依頼の部分に要求分を入力することで自動でグラフを作成してくれます。対話はインタラクティブには行われず、一度の要求に基づいて作成が行われるので正確に要求内容を伝える必要がありそうです。
なお、ビジュアライゼーションには「面グラフ」、「横棒グラフ」、「ボックスグラフ」など標準的なグラフには対応しており幅広くグラフを作成してくれます。
では、試しに
「事業別売上高を可視化して」
とお願いしてみましょう。
結果は
となり、少し見づらいですが可視化してくれました。
今回のブログではこのように様々な質問をしてみて、可視化してくれる内容を確認していきたいと思います。
使用データセット
可視化を行う前に使用するデータセットについて説明します。
今回使用するデータセットはkaggleの「Walmart Dataset」です。
このデータセットは米国の大手小売業者であるWalmartの売上データを含む、2010年2月5日から2012年11月1日までの時系列データセットです。各店舗ごとに売り上げが記載されており、気温など売り上げを予測する上で重要になりそうな特徴量が含まれています。なお含まれる特徴量は以下です。
参考文献:
https://www.kaggle.com/datasets/yasserh/walmart-dataset
データセットの準備
databricksではデータを可視化する前にクエリによってデータを準備する必要があります。まずはwalmartデータセットに含まれるすべてのデータを使用します。
これで準備完了です。
データセットの可視化
今回は店舗ごとの上位売り上げ平均5店舗を棒グラフで可視化することを目指します。
質問内容:
各店舗ごとの売上を可視化してください。
回答:
各店舗ごとの合計売上高を降順に可視化してくれました。
このようにマウスを上に置くことでどの店舗の情報を表しているかも確認することが出来ます。
では目的の可視化を目指し、指示を具体化したうえで作成をお願いしてみます。
質問内容:
各店舗ごとの売上を可視化してください。なお、可視化は多い順に5店舗までとし店舗ごとの平均値を算出してください。
回答:
平均を算出してくれるようになったものの、上位5店舗までの可視化ではなくすべての店舗の可視化を行っています。データセットを変更しなければならないのでしょうか。
では、データセットを変更して再度可視化を行います。
またdatabricksではクエリを作成する際にも「Genie」を使用することが出来、データセット作成を手伝ってくれます。
「Genie」でのクエリ作成
このクエリを作成したうえで再度同様のグラフを依頼します。
質問内容:
各店舗ごとの売上を可視化してください。なお、可視化は多い順に5店舗までとし店舗ごとの平均値を算出してください。
回答:
無事に売り上げ平均上位5店舗の可視化を行うことが出来ました。
なお、Genieが作成してくれたグラフを元に、表示内容を調整することも出来、最小値を180万とすることで
店舗ごとの違いをより分かりやすく可視化出来ました。
終わりに
今回のグラフではdatabricksのダッシュボードで「Genie」を使用して自動でグラフを作成しました。今回は棒グラフのみに絞りましたが、折れ線グラフ、円グラフなどを使用して自動でグラフを作成してくれます。databricks上で可視化を行う際に是非使ってみてください。