機械学習の中でも「教師なし学習」と「クラスタリング」は頻繁に並べて語られますが、両者の関係性を正確に説明できていないケースは少なくありません。
特に実務や記事執筆の場面では、「クラスタリング=教師なし学習」と短絡的に扱われてしまうことも多く、概念の混同が起きやすい領域です。
本稿では、理論的に正しい整理と実務での使われ方の両面から、クラスタリングと教師なし学習の関係性を体系的に解説します。
教師なし学習とは何か
教師なし学習(Unsupervised Learning)とは、正解ラベル(教師データ)が与えられていないデータから、内在する構造・分布・パターンを見つけ出す学習の枠組みを指します。
教師あり学習との根本的な違い
教師あり学習が「正解を予測する」ことを目的とするのに対し、教師なし学習の主目的は以下にあります。
- データの構造理解
- 潜在的な特徴やパターンの発見
- データ空間の整理・要約
つまり教師なし学習は、予測よりも探索・理解に重きを置いた学習方法だと言えます。
クラスタリングとは何か
クラスタリング(Clustering)は、データ同士の類似度や距離に基づいて、自然なグループ(クラスタ)を見つけ出すタスクです。
主な特徴は以下の通りです。
- 事前に正解ラベルは存在しない
- データの類似性に基づいて自動的に分割される
- 得られたグループの意味づけは人間が行う
この性質から、クラスタリングは 典型的な教師なし学習タスク と位置づけられています。
両者の関係性を一言で整理すると
結論を数学的に整理すると、クラスタリング ⊂ 教師なし学習という包含関係になります。
- 教師なし学習:学習の枠組み・パラダイム
- クラスタリング:その中の代表的なタスクの一つ
つまり、すべてのクラスタリングは教師なし学習だが、教師なし学習のすべてがクラスタリングではありません。
教師なし学習の主なカテゴリ
教師なし学習は、目的や手法の違いによって大きく以下のように整理されるのが一般的です。
クラスタリング
- データを類似したグループに分割する
- 顧客セグメンテーションなどで多用される
次元削減・表現学習
- 高次元データを低次元に圧縮する
- PCA、UMAP、t-SNE など
- 可視化や前処理として重要
密度推定(確率モデル)
- データの確率分布そのものを推定する
- ガウス混合モデル(GMM)など
派生タスク(異常検知など)
- 明確な独立カテゴリというより、「教師なし手法を用いて解くタスク」
- 低密度領域や外れ値を異常とみなす
このように見ると、クラスタリングは教師なし学習の中核的タスクの一つではあるが、全体ではないことが分かります。
なぜクラスタリングは教師なし学習なのか
クラスタリングが教師なし学習に分類される理由は、本質的には以下の3点に集約されます。
正解ラベルが存在しない
どのデータがどのグループに属するかという「答え」は事前に与えられていません。
内部的な基準で最適化される
多くのクラスタリング手法は、
- クラスタ内の凝集度
- クラスタ間の分離度
といった内部指標を最適化します。
結果の解釈は人間が行う
アルゴリズムは「分ける」だけであり、
- そのクラスタが何を意味するのか
- ビジネス上どう扱うか
は人間が判断します。
この 「分割は機械、意味づけは人間」 という構造こそが、教師なし学習の典型的な特徴です。
クラスタリング手法の考え方の違い
クラスタリングには複数のアプローチが存在し、「何をクラスタと定義するか」という思想が異なります。
距離ベース(K-meansなど)
- ユークリッド距離を基準に分割
- 球状で分散が近いクラスタを想定
- クラスタ数を事前に指定する必要がある
階層型クラスタリング
- データを段階的に結合・分割
- 階層構造を可視化できる
- クラスタ数を後から決められる
密度ベース(DBSCANなど)
- 密集している領域をクラスタとみなす
- 外れ値を自然にノイズとして扱える
- クラスタ数を指定しない
確率モデル(GMM)
- データが複数の確率分布の混合から生成されると仮定
- 各クラスタへの所属確率を算出(ソフトクラスタリング)
これらはすべて教師なし学習ですが、前提・得意な構造・用途が異なる点が重要です。
次元削減とクラスタリングの関係
実務では、クラスタリング単体で使われるよりも、次元削減 → クラスタリングという流れで用いられるケースが非常に多くなります。
理由は、高次元空間では
- 距離が均一化しやすい(距離の集中)
- ノイズ次元が類似度を歪める
といった問題が生じるためです。
次元削減によって本質的な構造を抽出したうえでクラスタリングを行うことで、安定性と解釈性が大きく向上します。
教師なし学習から教師あり学習への接続
クラスタリングは、教師あり学習の前段として使われることもあります。
- 教師なしでデータを分類
- 各クラスタに意味づけ
- クラスタIDを擬似ラベルとして利用
- 教師ありモデルで新規データを分類
このような使い方は 擬似ラベル(pseudo labeling) と呼ばれ、実務では珍しくありません。
実務・マーケティングでの評価の考え方
理論上、クラスタリングは内部指標で評価されますが、実務ではそれだけでは不十分です。
実際には、
- クラスタ別CVR
- クラスタ別LTV
- 解約率・再訪率の差
といった 外部KPIによる有用性評価 が重要になります。
つまり、
- 「綺麗に分かれているか」ではなく
- 「分けたことで意思決定が良くなったか」
が評価軸になります。
まとめ
最後に関係性を簡潔に整理します。
- 教師なし学習は「ラベルなしデータから構造や表現を学ぶ枠組み」
- クラスタリングはその中の代表的タスクの一つ
- 教師なし学習には次元削減や密度推定など他の重要領域も含まれる
- クラスタリングは探索・理解・前処理として非常に強力だが、万能ではない
以上、クラスタリングと教師なし学習の関係性についてでした。
最後までお読みいただき、ありがとうございました。
