クラスタリングは、教師なし学習を代表する分析手法であり、ラベルのないデータから、内在する構造や類似性に基づいてグループを自動的に抽出するために用いられます。
画像処理、自然言語処理、ネットワーク解析、異常検知、科学計測データ解析など、多様な分野で基盤技術として活用されています。
本記事では、クラスタリング手法をアルゴリズムの考え方ごとに分類し、
- 基本原理
- 特徴と前提条件
- 得意・不得意なケース
- 実務・研究で注意すべき点
を中心に体系的に解説します。
距離ベースのクラスタリング
k-means法
最も広く知られ、基本手法として扱われるクラスタリングアルゴリズムです。
仕組み
- クラスタ数 k を事前に指定
- 各クラスタの中心(重心)を初期化
- 各データ点を最も近い中心に割り当て
- 割り当て結果に基づき中心を再計算
- 割り当てが収束するまで反復
この手法は、クラスタ内平方和(SSE)を最小化する問題として定式化されます。
特徴
- 計算量が比較的少なく高速
- 大規模データにも適用しやすい
- 実装が容易で理解しやすい
注意点
- クラスタ数を事前に決める必要がある
- 特徴量のスケーリングに強く依存
- 球状かつ分散・サイズが近いクラスタに適している
- 非球状構造や外れ値に弱い
主な派生
- k-means++(初期値依存の緩和)
- Mini-Batch k-means(大規模データ対応)
k-medoids(PAM)
k-meansと同様に距離に基づく手法ですが、クラスタ中心として実際のデータ点(medoid)を用います。
特徴
- 外れ値の影響を受けにくい
- 距離(メトリック)が定義できるデータに適用可能
- k-meansより計算コストが高い
補足
- PAMは小〜中規模データ向け
- CLARA、CLARANSなどの大規模向け派生が存在
階層型クラスタリング(Hierarchical Clustering)
データ間の類似関係を階層構造として捉える手法です。
凝集型(Agglomerative)
仕組み
- 各データ点を1クラスタとして開始
- 距離が最も近いクラスタ同士を順に結合
- 結合過程をデンドログラム(樹形図)として表現
主なリンケージ手法
- 単連結法(Single)
- 完全連結法(Complete)
- 平均連結法(Average)
- Ward法(分散最小化)
特徴
- クラスタ数を後から決定可能
- 階層構造が可視化でき、解釈性が高い
注意点
- 計算量とメモリ使用量が大きくなりやすい
- 素朴な実装は大規模データに不向き
(ただしBIRCHなどの派生手法は存在)
分割型(Divisive)
全データを1クラスタとし、段階的に分割していく方式。
理論的には重要ですが、実装例や利用頻度は多くありません。
密度ベースのクラスタリング
DBSCAN
データ点の局所密度に基づいてクラスタを形成する手法です。
仕組み
- 半径 ε 内に一定数以上の点が存在する領域をクラスタと定義
- 密度が低い点はノイズとして扱う
特徴
- クラスタ数の事前指定が不要
- 非球状クラスタに対応可能
- 外れ値検出を同時に行える
注意点
- ε や min_samples の設定が難しい
- 特徴量スケーリングや距離関数に敏感
- 高次元では距離の識別力が低下しやすい
HDBSCAN
DBSCANを階層化した拡張手法。
特徴
- 密度が異なるクラスタにも比較的強い
- ノイズ処理能力が高い
- 高次元では次元削減と組み合わせて使われることが多い
モデルベースのクラスタリング
混合ガウスモデル(GMM)
データが複数の確率分布の混合から生成されると仮定する手法です。
特徴
- 各クラスタを確率分布として表現
- ソフトクラスタリング(所属確率)
- 分布が重なり合う状況にも対応しやすい
注意点
- 分布仮定(通常は正規分布)に依存
- 初期値に影響されやすい
グラフ・スペクトラル系クラスタリング
スペクトラルクラスタリング
データ間の類似度からグラフを構築し、グラフラプラシアンの固有ベクトルを用いてクラスタリングします。
特徴
- 非線形構造を捉えやすい
- グラフ構造を持つデータに適している
注意点
- 計算コストが高い
- 類似度定義やパラメータ設計が難しい
ファジィクラスタリング
ファジィc-means
各データ点が複数クラスタにどの程度属するかを連続値で表現する手法です。
特徴
- 境界が曖昧なデータに向く
- ソフトなクラスタ分割が可能
※距離ベース手法であり、スケーリング依存性は残ります。
次元削減+クラスタリング
高次元データでは、次元削減によって構造を整理した後にクラスタリングを行うことが一般的です。
よく用いられる構成
- PCA → k-means
- UMAP → HDBSCAN
注意点
- t-SNEは可視化に特化した手法であり、
その座標上でのクラスタ確定には注意が必要 - 次元削減手法はいずれもパラメータ依存が強い
その他の代表的手法
- Mean Shift(クラスタ数不要、帯域幅に依存)
- OPTICS(DBSCAN系、密度差への耐性がやや高い)
- Affinity Propagation(代表点を自動選択、計算量に注意)
- BIRCH(大規模データ向け、階層的要素を持つ)
手法選択の一般的な目安
| 条件 | 候補手法 |
|---|---|
| 大規模・高速 | k-means |
| クラスタ数不明 | DBSCAN / HDBSCAN |
| 階層構造の把握 | 階層型 |
| 外れ値を含む | DBSCAN / HDBSCAN |
| 分布が重なる | GMM |
| 非線形構造 | スペクトラル |
まとめ
クラスタリングは、データの性質・前提条件・目的によって最適な手法が大きく異なります。
- 距離か密度か、確率モデルか
- クラスタ数が既知か未知か
- 外れ値や非線形構造の有無
- 計算資源の制約
これらを総合的に考慮し、複数手法を比較・検証しながら選択することが重要です。
以上、クラスタリングの手法の一覧についてでした。
最後までお読みいただき、ありがとうございました。
