機械学習の評価指標について

AI実装検定のご案内

目次

機械学習における評価指標の重要性

機械学習モデルは、タスクやデータの性質によって評価すべきポイントが大きく異なります。

そのため、モデルの性能を正しく理解するには、目的に適した複数の指標を組み合わせて判断することが非常に重要です。

タスク別の評価指標

二値分類(Binary Classification)

陽性・陰性の2クラスに分類するタスクで使われる代表的な指標です。

Accuracy(正解率)

  • 全データのうち、どれだけ正しく予測できたかの割合。
  • データの偏りが大きい場合、高い値でも信頼できないことが多い。

Precision(適合率)

  • 「陽性」と予測したデータの中で、実際に陽性だった割合。
  • 誤って陽性と判断したくない状況で重要。

Recall(再現率)

  • 実際に陽性であるデータのうち、どれだけ陽性と予測できたかの割合。
  • 陽性の見逃しを避けたい場合に重視される。

F1 Score

  • Precision と Recall のバランスを見る指標。
  • クラスの偏りがある場面で特に役立つ。

ROC-AUC

  • 予測スコアに基づく分類能力を総合的に評価する指標。
  • しきい値に依存せず、モデルがどれだけ「良い順序付け」をできているかを確認するのに適している。

PR-AUC

  • Precision と Recall の関係性を評価する指標。
  • 陽性サンプルが特に少ない場合に、ROC-AUCより実態を反映しやすい。

多クラス分類(Multi-class Classification)

クラスが複数ある分類タスクでは、二値分類指標を拡張して評価する。

Macro F1

  • 各クラスを同じ重みで扱い、F1スコアの平均を取ったもの。
  • 少数クラスの性能も公平に評価できる。

Weighted F1

  • クラスのサンプル数に応じて重み付けしたF1スコアの平均。
  • データ分布を反映させた評価を行える。

Top-K Accuracy

  • 正解が予測上位Kの中に含まれるかどうか。
  • ランキング性のある分類問題で用いられやすい。

回帰(Regression)

数値を予測するタスクで用いられる評価指標。

MAE(平均絶対誤差)

  • 予測値と実測値の誤差をそのまま平均したもの。
  • 外れ値による影響が比較的小さい。

MSE(平均二乗誤差)

  • 誤差を二乗して平均したもの。
  • 大きな誤差をより強く評価に反映する。

RMSE(平方根平均二乗誤差)

  • MSE を元のスケールに戻したもの。
  • 誤差の大きさを直感的に理解しやすい。

R²(決定係数)

  • モデルがデータの変動をどれだけ説明できているかを表す。
  • 値が 1 に近いほど良く、場合によっては負になることもある。

ランキングタスク

検索・推薦・順位付けが重要な領域で使われる指標。

MAP(Mean Average Precision)

  • 正解がどの順位に現れるかを精密に評価し、クエリ全体で平均した指標。

NDCG

  • 正解が高い順位に出現するほど高く評価される指標。
  • 現代のレコメンドや検索評価において最もよく使われる。

MRR(Mean Reciprocal Rank)

  • 最初に正解が登場する順位に基づいて評価する指標。
  • 正解が早い位置に出るほど高評価になる。

混同行列(Confusion Matrix)で理解する分類評価

分類タスクの基本は、以下の4分類で構成される混同行列に基づきます。

  • TP(真陽性):正しい陽性予測
  • FP(偽陽性):誤って陽性と予測
  • FN(偽陰性):見逃した陽性
  • TN(真陰性):正しい陰性予測

Precision や Recall、F1などはこの4つから計算されます。

特にクラスに偏りがある場合は混同行列の確認が必須です。

評価指標を選ぶときの基本的な考え方

データのクラス比率を確認する

  • 偏りが大きい場合、Accuracy は当てにならない
  • F1 や PR-AUC が有効

誤検知と見逃し、どちらが問題か?

  • 誤検知(FP)を減らしたい → Precision
  • 見逃し(FN)を減らしたい → Recall

スコアの順位が重要か?

  • 順位が重要な場合 → ROC-AUC やランキング指標が適切

誤差の大きさをどう扱いたいか?

  • 大きな誤差を強く評価したい → RMSE
  • 全体の誤差を均等に扱いたい → MAE

よくある誤解と注意点

Accuracy は万能ではない

特にクラス偏りがあると、正しく性能を評価できない。

Precision と Recall はトレードオフ

片方だけを見ると誤った判断につながるため、複合評価が必要。

AUC はモデルの「しきい値に依存しない能力」を見る指標

実際の分類結果とは異なる観点を評価している点に注意。

評価の進め方(一般プロセス)

  • タスクの性質と、どの種類のミスが許容されないかを明確にする
  • データ分布(特にクラス比)をチェックする
  • 複数の指標で性能を確認する
  • 混同行列でモデルの挙動を理解する
  • タスクに合う最終指標で評価をまとめる

以上、機械学習の評価指標についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次