クラスタリングの評価指標について

AI実装検定のご案内

クラスタリングの評価指標とは、教師なし学習によって得られたクラスタ構造が、どの程度妥当であるかを判断するための基準です。

分類問題とは異なり、正解ラベルが存在しない場合が多いため、クラスタリングの評価では単一の指標だけで良否を判断することはできません。複数の指標や視点を組み合わせて検討することが前提となります。

評価指標は、大きく「内的評価指標」と「外的評価指標」の二つに分類されます。

目次

評価指標の分類

内的評価指標

内的評価指標は、正解ラベルを使用せず、データそのものとクラスタの割り当て結果のみを用いて評価を行います。

主に、クラスタ内部のまとまり具合(凝集性)と、クラスタ同士の分離の程度(分離性)を測定します。

教師なし学習において最も一般的に用いられる評価方法であり、実務や研究の現場で広く使用されています。

外的評価指標

外的評価指標は、正解ラベルが存在する場合に使用されます。

クラスタリングの結果と既知のクラスラベルとの一致度を測定することで、クラスタリング手法の性能を評価します。

主に手法検証や比較実験などで用いられる指標です。

内的評価指標の代表例

シルエット係数(Silhouette Coefficient)

シルエット係数は、クラスタリング評価指標の中でも特に広く知られている指標です。

各データ点について、自身が属するクラスタ内での平均距離と、最も近い別クラスタとの平均距離を比較することで評価を行います。

値の範囲は -1 から 1 で、1に近いほどクラスタが明確に分離されていることを示します。

0付近の値は、どのクラスタに属しているかが曖昧であることを意味し、負の値は不適切なクラスタ割り当ての可能性を示します。

シルエット係数はクラスタ数の比較に適しており、各データ点ごとの評価も可能です。

一方で、距離尺度に強く依存するため、高次元データでは距離の意味が弱まり、評価が不安定になることがあります。

また、非凸・非線形なクラスタ構造では低く評価されやすい点に注意が必要です。

Davies–Bouldin 指数(DB 指数)

Davies–Bouldin 指数は、クラスタ内部のばらつきとクラスタ間の距離の比率を用いて評価を行う指標です。

値が 小さいほど良いクラスタ構造 であると判断されます。

クラスタ内の分散が大きい場合や、クラスタ同士の距離が近い場合にはスコアが悪化します。

一方で、クラスタがコンパクトで、互いに十分離れている場合には良好な値となります。

計算量が比較的少なく、距離ベースのクラスタリング手法と相性が良い点が特徴です。

ただし、外れ値の影響を受けやすく、クラスタ数やデータ分布の違いによってスコアが変動しやすいため、同一条件下での比較が前提となります。

Calinski–Harabasz 指数(CH 指数)

Calinski–Harabasz 指数は、クラスタ間分散とクラスタ内分散の比率を用いて評価を行う指標です。

値が 大きいほど良い とされます。

計算が高速であるため、大規模なデータセットにも適用しやすい点が特徴です。

距離と分散に基づく評価であるため、クラスタが球状かつ凸型である場合に適した指標といえます。

一方で、非線形構造や非凸形状のクラスタでは、妥当性が低下する場合があります。

エルボー法

エルボー法は、厳密な評価指標というよりも、クラスタ数を検討するための補助的な手法です。

クラスタ数と目的関数の値をプロットし、変化が緩やかになる点を視覚的に判断します。

主に k-means 系の手法で使用されますが、明確な折れ曲がりが現れない場合も多く、主観が入りやすい点には注意が必要です。

外的評価指標の代表例

Adjusted Rand Index(ARI)

Adjusted Rand Index は、クラスタリング結果と正解ラベルの一致度を、ランダム割り当ての影響を補正したうえで評価する指標です。

値の範囲は -1 から 1 で、0はランダムな割り当てと同程度であることを示します。

クラスタ数が異なる場合でも比較が可能な点が特徴です。

Normalized Mutual Information(NMI)

Normalized Mutual Information は、情報理論に基づき、クラスタと正解ラベルの相互情報量を正規化した指標です。

値の範囲は 0 から 1 で、値が大きいほど一致度が高いことを示します。

クラスタ数の違いに比較的影響を受けにくい指標ですが、正規化方法は実装によって異なる場合があります。

Fowlkes–Mallows 指数(FMI)

Fowlkes–Mallows 指数は、データ点のペアに基づいて、Precision と Recall の幾何平均として定義される指標です。

値の範囲は 0 から 1 で、値が大きいほどクラスタリング結果が正解ラベルと一致していることを示します。

ペア単位で評価を行うため、データ量が多い場合には計算コストが増える点に注意が必要です。

指標選択に関する一般的な考え方

正解ラベルが存在しない場合には、シルエット係数、Davies–Bouldin 指数、Calinski–Harabasz 指数などの内的評価指標が中心となります。

正解ラベルが存在する場合には、ARI や NMI、FMI などの外的評価指標が有効です。

なお、非凸・非線形なクラスタ構造では、距離ベースの評価指標は参考値として扱い、可視化などの手法と併用することが重要です。

評価を行う際の注意点

クラスタリングの評価は、単一の数値だけで完結するものではありません。

複数の評価指標を併用し、さらに次元削減手法などによる可視化を組み合わせることで、より妥当な判断が可能となります。

また、初期値やサンプリング条件を変更した際に結果がどの程度再現されるかといった「安定性」も、重要な検証観点の一つです。

まとめ

クラスタリングの評価指標は、内的評価指標と外的評価指標に大別されます。

正解ラベルが存在しない場合には内的評価指標を用い、存在する場合には外的評価指標を用いるのが基本です。

いずれの指標も前提条件や特性を理解したうえで複数併用し、数値評価と可視的な確認を組み合わせて判断することが重要です。

以上、クラスタリングの評価指標についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次