【Dataiku】簡単に全列のnullや外れ値を確認し、EDAしてみる
【Dataiku】簡単に全列のnullや外れ値を確認し、EDAしてみる
DataikuのTIPS紹介
Dataikuには便利でEDAの時短につながる機能があります。今回はその中でも全列のnullや外れ値などその他にもEDAをする方法をご紹介します。
データはSIGNATEの第2回金融コンペ
こちらの金融コンペ第2回のデータを参考に説明したいと思います。
https://signate.jp/competitions/1325#disclosure-policy
まずはこのデータを読み込みます。+データセットからファイルのアップロードでデータをアップロードし、データを開きます。
全列の外れ値やNULLなどを確認
もちろんこれだけでも分かりやすいのですが、裏技としては右上の「COLUMNS」ボタンをクリックしてみて下さい。
このボタンを押すことでテーブル形式ではなくリスト形式でデータが表示されます。
「ALL meanings」→「%invalid」、横のボタンで降順にすることで、外れ値と推測されているデータが多いカラムから降順に表示されます。
こちらはemptyでも可能です。
そこまで空白の多い列があるわけではなさそうですね。
また、ここを選択することで表示するラベルの数値を選べます。
全カラムの分布を確認
さらにここを選択することで、全カラムの分布を簡単に確認できます(便利!)
他にもここでデータの意味の変更もできますし、歯車アイコンを押すことでデータの分析結果も簡単に見れます。
グラフで散布図を描画し、EDA
ExploreからChartsタブに移り、箱ひげ図やヒストグラム、散布図などの描画をし、どのようなデータがあるのかすぐに確認できます。
もしこの図をダッシュボードに保存したい場合は右上の「PUBLISH」をクリックすれば大丈夫です。
他にもStaticsタブを使用することで相関係数行列や主成分分析など手軽にできます。