機械学習の評価指標の選び方について

2025年11月4日

機械学習モデルを評価する際、最も重要なのは「何を成功とみなすのか」を明確にすることです。

適切な評価指標を選ばなければ、モデルが高い数値を出しても実際にはビジネス価値を生まないことがあります。

ここでは、分類・回帰・クラスタリング・生成タスクそれぞれにおける評価指標の選び方と実務での使い分けを詳しく解説します。

評価指標選定の基本方針

モデルの性能を測る前に、次の3つの観点を明確にしましょう。

何を最も重視すべきかを定義します。
例：
- スパム検知 → 誤判定を避けたい → Precision重視
- 医療診断 → 見逃しを防ぎたい → Recall重視
- 広告配信 → ROI最適化 → 利益ベースの指標（後述）

クラス不均衡（例：陽性1%、陰性99%）がある場合、Accuracy（正解率）はほぼ意味を失います。
→ F1スコアやPR-AUC（Precision-Recall AUC）など、偏りに強い指標を用いることが基本です。

False Positive（誤検知）とFalse Negative（見逃し）ではコストが異なる。
例：
- 不正検知 → 見逃しが致命的 → Recall重視
- 顧客ターゲティング → 誤配信が高コスト → Precision重視

指標	内容	特徴
MAE（平均絶対誤差）	平均的な誤差幅	外れ値に強く解釈が直感的
MSE / RMSE	誤差の二乗平均	大きな誤差をより強く罰する
R²スコア（決定係数）	モデルが分散をどれだけ説明できるか	データ内での比較には有効だが、他データとの比較は不適
MAPE / SMAPE	実測値に対する割合誤差	0付近で不安定なためSMAPE推奨
RMSLE	対数変換後のRMSE	売上・アクセス数など右裾分布に有効
MASE	ナイーブモデルとの比較誤差	時系列予測のベースライン比較に便利
Pinball Loss	分位予測誤差	需要予測など非対称リスクに有効

教師なし学習では正解ラベルがないため、内部評価指標か、既知ラベルとの外部評価を行います。

指標	内容	補足
Silhouette Score	クラスタ内凝集と分離度のバランス	1に近いほど良好。高次元では注意。
Davies-Bouldin Index	クラスタ分離度	値が小さいほど良好。
ARI（Adjusted Rand Index）	真のラベルとの一致度	ランダム一致補正あり。外部評価向き。
NMI（Normalized Mutual Information）	情報理論的な一致度	ラベル構造の類似度を測る。

指標	内容	適用場面
Precision@K / Recall@K	上位K件の精度・網羅率	推薦結果の品質評価
MAP（Mean Average Precision）	順位付きの総合精度	検索ランキング全体評価
NDCG（Normalized Discounted Cumulative Gain）	順位重み付きの関連度	段階的関連度を扱う場合に最適

極端な不均衡（例：陽性1%）では、Accuracyは実質無意味です。

この場合は次を優先します。

分類モデルは「確率 → 判定」に変換するしきい値を決める必要があります。

固定値（0.5）ではなく、Precision–Recall曲線や利益曲線（Profit Curve）で最適なしきい値を探索します。

また、混同行列を可視化して意思決定者と共有すると、現場の理解が進みます。

リリース後のモデルは時間とともに性能が劣化します。

そのため、次のモニタリング指標が必要です。

観点	指標・方法
性能劣化検知	AUC・Recall・Precisionの時系列監視
データドリフト検知	PSI（Population Stability Index）、KL散逸
キャリブレーション	Brierスコア、ECE（Expected Calibration Error）
公平性検証	属性別FNR/FPR差のモニタリング
アラート精度維持	アラート率・PPVの監視（SLA管理）

タスク	主指標	補助指標	備考
二値分類	PR-AUC, F1	Precision, Recall	不均衡対応重視
多クラス分類	Macro-F1	Weighted-F1, Balanced Accuracy	クラス間バランス確認
回帰	RMSE, SMAPE	MAE, R², RMSLE	分布と単位に応じて選択
クラスタリング	Silhouette, ARI	NMI	ラベルの有無で選択
推薦・検索	NDCG@K	Precision@K, MAP	順位付き性能重視
生成・翻訳	BLEU, BERTScore	COMET, ROUGE	意味的妥当性を考慮