そのほか
2024/11/26
與田 龍人

Databricks Unity Catalog: データのリネージ追跡の活用法

データ管理におけるデータ依存関係の可視化は、信頼性の高いデータ基盤を構築する上で不可欠です。Databricks Unity Catalogは、データの依存関係(リネージ)を追跡する強力な機能を提供します。
本記事では、Unity Catalogを用いたリネージ追跡の活用方法を、データ変換ツール dbtと組み合わせて具体的に解説します。jaffle_shopデータセットを用いたサンプルワークフローを通じて、実際の操作方法をデモします。

はじめに

データ管理におけるデータ依存関係の可視化は、信頼性の高いデータ基盤を構築する上で不可欠です。Databricks Unity Catalogは、データの依存関係(リネージ)を追跡する強力な機能を提供します。

本記事では、Unity Catalogを用いたリネージ追跡の活用方法を、データ変換ツール dbtと組み合わせて具体的に解説します。jaffle_shopデータセットを用いたサンプルワークフローを通じて、実際の操作方法をデモします。

使用するデータと環境

データセット: jaffle_shop(dbt公式サンプルデータ)


ツール: Databricks、Unity Catalog、dbt


目的: Databricks Unity Catalogを利用して以下を実現します。


・dbtによるデータ変換のリネージ(依存関係)の可視化


・データモデルと実行ワークフローの統合的な確認


dbtとUnity Catalogでのリネージ追跡

Databricks Unity Catalogは、dbtで実行されたデータ変換プロセスのリネージを自動的に記録します。以下は、jaffle_shopデータセットのELTパイプラインで生成されたリネージ図です。


リネージ全体の可視化



このリネージ図は、データ変換の全体像を視覚的に把握できる強力なツールです。たとえば、stg_customersテーブルが dim_customers テーブルに変換されるプロセスを簡単に追跡できます。


ソースとターゲットの関連詳細

さらに、リネージ図をクリックすると、以下のようにdbtで作成したソーステーブルとターゲットテーブルの依存関係を確認できます。



使用したワークフローに関しても確認可能です。



dbtジョブの実行とリネージの自動追跡

1.dbtの設定:


Unity Catalogと連携するために、dbtプロファイルを以下のように設定します。



dbt_project:
outputs:
dev:
type: databricks
catalog: unity_catalog
schema: jaffle_shop
target: dev


 


2.データ変換ジョブの実行:


dbt run を実行して、stg_customersdim_customers などのテーブルを作成します。


 



3.リネージの確認:


DatabricksのUnity Catalog上で、作成したテーブルとその依存関係が自動的に追跡され、視覚的に表示されます。




まとめ

Databricks Unity Catalogは、データのリネージ追跡を一元管理できる強力なツールです。特にdbtと連携することで、データ変換のプロセス全体を可視化し、信頼性の高いデータ基盤を構築できます。


本記事の手順を参考に、ぜひ自社のデータ環境でUnity Catalogの機能を活用してみてください。


New call-to-action