マーケターのためのクラスタリング入門 ― 大量のアンケート変数をどう分析するか
「アンケートの変数が数百あるけど、何から手をつければいいかわからない」——マーケターなら一度は経験するこの悩みに答える記事です。クラスタリング分析で最もつまずきやすい「どの変数をクラスタリングに使い、どの変数をプロファイリングに回すか」という設計判断を軸に、前処理→因子分析→k-means→プロファイリング→可視化の全体フローを解説します。手法の数学よりも「なぜこの順番で進めるのか」という考え方を重視した、実務者向けの入門記事です。
はじめに
アンケート調査のローデータを受け取って、途方に暮れた経験はないでしょうか。ローデータを見てみると、列は購入理由、満足度、価値観、趣味と数十にのぼり、行は数千人分。どの変数が重要なのかもわからないし、そもそもこの大量の変数をどう組み合わせて分析すればいいのかの見当もつきません。これは、分析ソフトの使い方を調べても、なかなか解決しない悩みです。
本記事では、大量のアンケート変数を使って顧客をセグメントに分ける「クラスタリング分析」の全体像を、マーケティング実務者の視点で解説します。手法の数学的な詳細よりも、「何を、どの順番で、なぜやるのか」という分析設計の考え方に焦点を当てています。
クラスタリングとは何か
クラスタリングとは、一言で言えば「似た者同士をグループに分ける」手法です。
マーケティングにおけるその用途は明確で、顧客セグメンテーションです。「20代女性」「高年収層」のような単純なデモグラフィック分類ではなく、価値観や行動パターンといった多次元の情報をもとに、より本質的な顧客像を浮かび上がらせることができます。
「このセグメントの人たちは、ビジュアルではなく、性能を重視し、アウトドアが趣味で、高年収」――こうした立体的な顧客理解が得られるのが、クラスタリングの強みです。
変数の「役割分け」
クラスタリングにおいて、重要なのが、「どの変数をクラスタリングに使い、どの変数を使わないか」を決めることです。
具体的には、クラスタリングに使う変数とクラスタリング後の解釈に使う変数に分けることです。
- クラスタリングに使う変数は、「この基準で人を分けたい」という意図を反映するものです。たとえばスキンケア商品の調査なら、美容に対する価値観(「成分にこだわりたい」「手軽さを重視する」など)、使用シーン(朝のケア、夜のケア、外出先でのケア直しなど)、ライフスタイル(健康志向、時短志向など)。つまり「その人がどんな人か」を表す変数がこれにあたります。
- クラスタリング後の解釈に使う変数は、グループができた後に「このグループはどんな人たちか?」を調べるために参照するものです。性別、年齢、年収といったデモグラフィックや、実際に購入している商品・ブランドがこれにあたります。
なぜ分けるのか
たとえば「どのブランドを購入しているか」をクラスタリングに入れてしまうと、単に「ブランドAの購入者」「ブランドBの購入者」に分かれるだけで、それは当たり前の結果です。答えを入力に入れてしまうと、分析の意味がなくなってしまいます。
正しいアプローチは、価値観やライフスタイルでグループを作った上で、後から「このグループにはブランドAの購入者が多い」と発見することです。この順番を守ることで、「なぜこのブランドが選ばれているのか」というインサイトが得られます。
どの変数をどちらに分けるか?判断基準
とはいえ、実際のデータを前にすると「この変数はどっちに入れるべきか」と迷うことが多いはずです。判断の軸はシンプルで、「その変数は人のタイプを分けるものか、それとも分けた後に結果として見たいものか」を考えます。
たとえば「成分にこだわるか」「手軽さを重視するか」といった価値観は、その人自身の性格や志向を表しています。これはグループを作る基準にふさわしいので、クラスタリングに使う変数です。一方、「どのブランドを購入したか」「月にいくら使っているか」は、その人の行動の結果です。これはグループができた後に「このグループはどう行動しているか」を見るために使うクラスタリング後の解釈に使う変数です。
迷ったときは、以下のように問いかけてみてください。

具体例で見てみましょう。スキンケア商品の調査データに以下の変数があるとします。

デモグラフィック(年齢・性別・年収など)は多くの場合プロファイリング変数に回します。なぜなら、年齢や性別でグループを作るのはクラスタリングを使うまでもなく、単純なクロス集計で十分だからです。クラスタリングの価値は、デモグラフィックだけでは見えない「価値観や行動パターンに基づく、より本質的なグループ」を発見することにあります。
分析パイプラインの全体像
変数の役割を決めたら、いよいよ分析に入ります。大量のアンケート変数を使ったクラスタリングは、以下の5ステップで進めます。
Step 1:前処理
まず、欠損値の処理とスケーリング(標準化)を行います。アンケートデータでは「未回答」による欠損が多いものです。欠損率が高すぎる変数(目安として50%以上)は除外し、それ以外は中央値などで補完します。
また、5段階評価の変数と0/1のバイナリ変数が混在する場合、スケールを揃えないと一部の変数が結果を支配してしまいます。たとえば「満足度(1〜10点)」と「キャンプが趣味か(0か1)」をそのまま一緒に分析すると、点数の範囲が大きい満足度ばかりが結果に影響します。StandardScaler等で標準化(平均0、標準偏差1に揃える)しておくことで、すべての変数が公平に扱われます。
Step 2:因子分析で次元を縮約する
変数が多すぎると、すべてのデータ同士の距離が似たような値になってしまい、「似ている・似ていない」の区別がつきづらいです。
そこで、カテゴリごとに因子分析を行い、変数を少数の「因子」にまとめます。因子分析とは、「たくさんの質問項目の裏に共通して潜んでいるテーマを見つける」手法です。
たとえば、スキンケアの価値観に関する25の質問項目を因子分析にかけると、以下のようにいくつかのテーマに集約されます。
`「成分にこだわりたい」「オーガニックが好き」「添加物を避けたい」 → まとめて「品質こだわり因子」
「時間をかけたくない」「ステップ数は少ないほうがいい」「オールインワンが好き」 → まとめて「時短志向因子」`
このように、変数群をカテゴリごとに因子分析して因子スコアを算出します。
価値観 25変数 → 4〜6因子 使用シーン 15変数 → 3〜4因子 ライフスタイル 50変数 → 5〜7因子
こうして得られた因子スコアを、クラスタリングの入力にします。変数の数を大幅に減らしつつ、情報の本質は保持できます。
Step 3:クラスタ数を決める
「何グループに分けるか」は、分析者が事前に決める必要があります。その判断材料として代表的なのが以下の2つです。
エルボー法は、クラスタ数を2, 3, 4…と増やしていき、クラスタ内のばらつき(データがどれだけまとまっているか)を折れ線グラフにプロットします。最初はクラスタ数を増やすほどばらつきは急に減りますが、あるポイントから改善が鈍化します。この「折れ曲がるポイント」(肘の位置)が最適なクラスタ数の目安です。
シルエットスコアは、各回答者が「自分のグループにどれだけフィットしているか」を−1〜1の数値で測る指標です。1に近いほど良い分類、0付近は境界線上、マイナスは間違ったグループに入っている可能性を示します。クラスタ数ごとに全体の平均スコアを計算し、スコアが最大になるクラスタ数を選びます。
実務的には、この2つの結果に加えて、「5〜8個くらいが企画として扱いやすい」というビジネス上の制約も考慮して決めることが多いです。
Step 4:k-meansでクラスタリング
クラスタ数が決まったら、k-meansアルゴリズムでクラスタリングを実行します。k-meansは最も広く使われるクラスタリング手法で、大規模データでも高速に動作し、結果の解釈も直感的です。
なお、データの規模が小さい場合(数十件程度)は階層的クラスタリング、変数がカテゴリカル中心の場合は潜在クラス分析 (LCA) のほうが適していることもあります。

Step 5:プロファイリング
最後のステップが、前述の「クラスタリング後の解釈に使う変数」を使ってグループの特徴を読み解く作業です。
各クラスタについて、デモグラフィック(年齢・年収・性別など)の構成比、購入ブランドの分布、満足度の傾向などをクロス集計し、クラスタに「名前」を付けます。「クラスタ3」ではなく「成分こだわりナチュラル志向層」のように、ビジネスで使える言葉に翻訳することで、企画チームとの共通言語になります。
このプロファイリングの工程を経て初めて、「クラスタ3は30代女性が多く、オーガニック系ブランドの購入率が高い」といった具体的な発見につながります。数字の羅列だったクラスタリング結果に「意味」が宿ります。
結果をどう伝えるか
分析結果を企画会議で伝えるには、可視化が欠かせません。実務で特に使いやすいのは以下の3つです。
- レーダーチャート : クラスタごとの因子スコアをポリゴンの形で示します。「このセグメントはコスパ志向が突出している」といった個性が一目でわかります。
- ヒートマップ : クラスタ×変数の値を色の濃淡で表現するもので、多数のクラスタ・変数を一覧で比較するのに向いています。
- 積み上げ棒グラフ : 各クラスタの年齢構成や年収帯などを比較する定番手法です。
まとめ
大量のアンケート変数を使ったクラスタリング分析は、「変数の役割分け → 因子分析で次元縮約 → k-meansでセグメント作成 → プロファイリング」という流れで進めます。
中でも最大のポイントは、クラスタリングに使う変数とクラスタリング後の解釈に使う変数を分けるという設計判断です。「人のタイプを分けるもの」はクラスタリングに使い、「分けた結果として知りたいこと」はプロファイリングに回す。この考え方を押さえておけば、手法そのものよりも、どんな業界のアンケートデータにも応用できる分析設計力が身につくはずです。
