プロジェクト整備とBigQueryでのデータ整形/ディレクトリ名などの命名ルール
複数人が一つのプロジェクト内で作業をする場合に、階層や命名に一定のルールを設けることで作業を効率的に行うことができるようになります。この記事では自社でのルールを紹介します。
プロジェクトの表記ルール
基本的に、業界の水準に倣ったものを明文化しています。
1.命名は全て英単語を利用
a.固有名詞はローマ字化して良い
例)Engage_data, Tanakasyouten_data
2.単語はアンダースコアで繋ぐ
a.可読性を向上
b.アンダース(_)が利用できない場合にはハイフン(-)を使用する
例)Engage_data, Engage-data
3.単語の先頭は大文字
a.可読性の向上
b.利用可能文字が小文字のみの場合は、この限りでない
例)Engage_data
プロジェクトでの表記ルールをあらかじめ定めておくことによって、ほかの人がそのデータを扱うときによりスムーズにデータを理解することができます。
ディレクトリ構造・命名ルール
次にディレクトリ構造・命名のルールについてです。
ディレクトリの構造ルール
最上位ディレクトリ:since-dev
第二ディレクトリ:検証で主に扱うデータごとのフォルダ
第三ディレクトリ:ローデータと整形済みデータ用のフォルダ
第四ディレクトリ:各種データを格納
デプロイしたモデルなどの保管場所は別途追記
ディレクトリ命名ルール
・基本形:[会社名][データの種類][データの期間]
・名前を見たときに内容を理解できる名称
・似たようなデータを複数生成する必要がある場合は末尾にバージョンの記載
例)v_0.1/v_01
どのディレクトリにどういったものがあるのか、そのファイルにはどういったデータのいつの期間のものが入っているのかを誰が見てもわかる状態にしておきましょう。
BigQuery上でクエリを使ってフィールド名を修正する
BigQuery にファイルをアップロードした際に、ヘッダーが日本語だと以下のような文字化けの状態になってしまいます。
BigQuery にファイルをアップロードした後にフィールド名を変更するにはクエリをする必要があります。
このクエリをBigQuery 上で行うことによってフィールド名を変更することができます。
まとめ
今回はプロジェクトで新しいディレクトリを作成する際の表記・構造のルールを紹介しました。
複数人が参加するようなプロジェクトでは新しい人が途中で参加することも考えて、だれが見ても何のデータが入っているのかわかるような工夫をしなくてはなりません。こういった工夫ができていれば、その作成者がいなくてもプロジェクトを進めることができるようになります。