【経験談】Dataikuの魅力とは?ビジネスユーザーも簡単に使えるデータ分析プラットフォームを紹介
本記事では、Dataikuというデータ分析プラットフォームの魅力について紹介します。Dataikuは、高度なプログラミングスキルが不要でありながら、ビジネスユーザーでも簡単に利用できる点が特徴です。また、多様なデータソースに対応しており、カスタマイズ性が高く、モデルの不透明性がない点も魅力の一つです。さらに、拡張機能も豊富であり、柔軟にデータ分析を行うことができます。
目次
はじめに
今回はDataiku(Dataiku DSS)を実際に使ってみて魅力的だと思う点を紹介したいと思います。
実際に使ってみてどうなの?という疑問の声もあると思うので是非参考になれば幸いです。
Dataiku公式リンク:Dataiku | Everyday AI, Extraordinary People
Dataikuとは
Dataikuとはデータソースへの接続からデータの準備、AIや機械学習モデルの構築に加え、分析アプリケーションの開発と運用までをひとつのソリューションとして統合させた、オールインワンのAI・機械学習プラットフォームです。
引用:Debriefing My Trip to Dataiku HQ – InterWorks
要するにデータ分析が一通りなんでもできるということですね。それに加えてデータ分析専門職でない人も分かりやすく操作できたり監視できる仕組みが工夫して組み込まれています。
上の画像のようにデータの前処理からモデル作成までおこない、モニタリングまでできます。
また、Webアプリケーションも作成できるみたいですね。
こちらは公式ページに記載されている資料です。デモ動画もあるのでより詳しく知りたい方は是非閲覧してください。
それでは次の章から魅力について解説したいと思います。
公式資料:Everyday AIのためのプラットフォーム『Dataiku』
高度なプログラミングスキル不要、ビジネスユーザーでも使いやすい
Dataikuは、ビジネスユーザーが簡単に使えるように設計されています。直感的なUIや、ドラッグ&ドロップで操作できる機能など、初心者でも使いやすいインターフェースを提供しています。
いくつか例を用いて紹介します。
①作業の流れがフロー画面として出てくる
引用:Everyday AIのためのプラットフォーム『Dataiku』
今まで自分がした作業が目で見える形で残ります。
見えるだけでなく遡って工程の一部分を変更したり自由自在に操れます。具体的にはまた同じ作業を行いたいときに別のデータセットにその作業を適応させることもできます。
工程が多くなると混乱してしまいますがこのフロー図があることで整理されていいですね。
しかも後で変更しやすかったりするのでとても便利です。
②データ加工がプログラム不要でできる
データはKaggkeのタイタニックデータページからダウンロードしました。参考:Titanic – Machine Learning from Disaster | Kaggle
train.csvとtest.csvの二つをダウンロードした結果がフローに出ていますね。
こちらは性別のカラムを数値に変換するときの様子です。
maleは1とし、femaleは2とするという命令をしています。写真左を見てもらえばわかる通りGUIでデータ加工ができていることが分かると思います。
他にもGUIで操作できるデータ加工・結合は説明しきれないほど数多くあります。
ここでも加工のステップを入れ替えたり修正できます。
③モデルの作成もGUIでできる
データセットが完成したら目的変数と使用するモデルタイプを選択します。
アルゴリズムはランダムフォレストとLogistic Regressionにしました。
他にもXGboostやLightGBMなど数多くのモデルがあります。
下の写真は学習中の写真です。
結果が出たようです。
結果を見るとランダムフォレストの精度がとてもいいですね。
最終的にはこのモデルで決定することにしました。
よって作業の全体図はこのようになります。
多様なデータソースに対応
Dataikuは多様なところからデータを取得できます。
SQL databasesだけでもこんなにありますね。ほかにもGoogle Driveから取得やTwitter,Youtubeなど様々なジャンルのデータが取得できるようです。
カスタマイズ性が高い
機械学習モデルの話やデータ加工の話を聞くと「もし自分がやりたいデータ加工やモデルがないときはどうしたらいいんだろう?」と不安に思う方をいるかもしれませんがその心配は不要です。
なぜならデータ加工にもモデル作成にも自身のコードを追加したかったら自由にコードを書いて追加できます。
下の写真はPythonでデータ加工のカスタマイズしているときの例です。
Pythonでデータ加工をすればそれもフローに追加されます。
他にもSQLやRなどでプログラムできます。もちろんモデル作成や他の部分でも使えます。
最終的に自分で書けるのはデータ分析専門の方なら安心するのではないでしょうか。
モデルの不透明性がない
GUIでモデルの操作ができることに対しても不安に思う方もいると思います。
「アルゴリズムの中身はどうなっているのだろう?細かい設定はできないのかな?」と私も最初不安に思いました。
しかし実際に使ってみるとテストデータと学習データの分割の仕方やランダムシード、細かいパラメーターの設定がありました。下の写真がその様子の一部分です。
そして学習した後のモデルの中身を見えます。
例えばこれはランダムフォレストの中身と変数の重要性の図です。
これはすごいですね。
Dataikuのいいところはプログラムを省いて大切なパラメーターの調整などに時間を割けることですね。ありがたいです。
加えて自分のコードでモデルを進化させることもできるようです。
ここまでカスタマイズできるなんて恐ろしいですね。
チームで共有しやすい
総合プラットフォームなのでこの点も抜かりないですね。
Wikiやダッシュボード、ノートブックの作成、Webアプリの作成などができます。
プロジェクトごとにディスカッションチャットがあったり誰がどの仕事をしたのか、どれくらいの時間滞在していたかも分かります。
引用:Everyday AIのためのプラットフォーム『Dataiku』
ダッシュボードの例です。
引用:Everyday AIのためのプラットフォーム『Dataiku』
Webアプリの例です。
拡張機能が面白い
プラグインという拡張機能が搭載されており、面白そうなものがあります。
例えばOpenAIのGPTを使ったデータ加工ができる拡張機能がありますね。
他にも自分のYoutubeアカウントからデータを取得したり、さらにGoogleやAmzonがもつモデルで機械学習できますよ、という拡張機能もあります。
いつか使う機会があれば使ってみたいですね。
まとめ
いかがでしたでしょうか?
Dataikuは使いやすいインターフェースや多様な機能を持ち、データ分析のプロセスを効率化するための優れたツールです。また、自動化やモデルの展開など、機械学習のプロセスを簡単に管理することができます。
ここまで読んで下さりありがとうございました。