機械学習の評価指標について

2025年12月5日

機械学習における評価指標の重要性

機械学習モデルは、タスクやデータの性質によって評価すべきポイントが大きく異なります。

そのため、モデルの性能を正しく理解するには、目的に適した複数の指標を組み合わせて判断することが非常に重要です。

タスク別の評価指標

二値分類（Binary Classification）

陽性・陰性の2クラスに分類するタスクで使われる代表的な指標です。

Accuracy（正解率）

全データのうち、どれだけ正しく予測できたかの割合。
データの偏りが大きい場合、高い値でも信頼できないことが多い。

Precision（適合率）

「陽性」と予測したデータの中で、実際に陽性だった割合。
誤って陽性と判断したくない状況で重要。

Recall（再現率）

実際に陽性であるデータのうち、どれだけ陽性と予測できたかの割合。
陽性の見逃しを避けたい場合に重視される。

F1 Score

Precision と Recall のバランスを見る指標。
クラスの偏りがある場面で特に役立つ。

ROC-AUC

予測スコアに基づく分類能力を総合的に評価する指標。
しきい値に依存せず、モデルがどれだけ「良い順序付け」をできているかを確認するのに適している。

PR-AUC

Precision と Recall の関係性を評価する指標。
陽性サンプルが特に少ない場合に、ROC-AUCより実態を反映しやすい。

多クラス分類（Multi-class Classification）

クラスが複数ある分類タスクでは、二値分類指標を拡張して評価する。

Macro F1

各クラスを同じ重みで扱い、F1スコアの平均を取ったもの。
少数クラスの性能も公平に評価できる。

Weighted F1

クラスのサンプル数に応じて重み付けしたF1スコアの平均。
データ分布を反映させた評価を行える。

Top-K Accuracy

正解が予測上位Kの中に含まれるかどうか。
ランキング性のある分類問題で用いられやすい。

回帰（Regression）

数値を予測するタスクで用いられる評価指標。

MAE（平均絶対誤差）

予測値と実測値の誤差をそのまま平均したもの。
外れ値による影響が比較的小さい。

MSE（平均二乗誤差）

誤差を二乗して平均したもの。
大きな誤差をより強く評価に反映する。

RMSE（平方根平均二乗誤差）

MSE を元のスケールに戻したもの。
誤差の大きさを直感的に理解しやすい。

R²（決定係数）

モデルがデータの変動をどれだけ説明できているかを表す。
値が 1 に近いほど良く、場合によっては負になることもある。

混同行列（Confusion Matrix）で理解する分類評価

分類タスクの基本は、以下の4分類で構成される混同行列に基づきます。

TP（真陽性）：正しい陽性予測
FP（偽陽性）：誤って陽性と予測
FN（偽陰性）：見逃した陽性
TN（真陰性）：正しい陰性予測

Precision や Recall、F1などはこの4つから計算されます。

特にクラスに偏りがある場合は混同行列の確認が必須です。

評価指標を選ぶときの基本的な考え方

データのクラス比率を確認する

偏りが大きい場合、Accuracy は当てにならない
F1 や PR-AUC が有効

誤検知と見逃し、どちらが問題か？

誤検知（FP）を減らしたい → Precision
見逃し（FN）を減らしたい → Recall

スコアの順位が重要か？

順位が重要な場合 → ROC-AUC やランキング指標が適切

誤差の大きさをどう扱いたいか？

大きな誤差を強く評価したい → RMSE
全体の誤差を均等に扱いたい → MAE

よくある誤解と注意点

Accuracy は万能ではない

特にクラス偏りがあると、正しく性能を評価できない。

Precision と Recall はトレードオフ

片方だけを見ると誤った判断につながるため、複合評価が必要。

AUC はモデルの「しきい値に依存しない能力」を見る指標

実際の分類結果とは異なる観点を評価している点に注意。

評価の進め方（一般プロセス）

タスクの性質と、どの種類のミスが許容されないかを明確にする
データ分布（特にクラス比）をチェックする
複数の指標で性能を確認する
混同行列でモデルの挙動を理解する
タスクに合う最終指標で評価をまとめる

以上、機械学習の評価指標についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

機械学習の評価指標について

AI実装検定のご案内

機械学習における評価指標の重要性

タスク別の評価指標

二値分類（Binary Classification）

Accuracy（正解率）

Precision（適合率）

Recall（再現率）

F1 Score

ROC-AUC

PR-AUC

多クラス分類（Multi-class Classification）

Macro F1

Weighted F1

Top-K Accuracy

回帰（Regression）

MAE（平均絶対誤差）

MSE（平均二乗誤差）

RMSE（平方根平均二乗誤差）

R²（決定係数）

ランキングタスク

MAP（Mean Average Precision）

NDCG

MRR（Mean Reciprocal Rank）

混同行列（Confusion Matrix）で理解する分類評価

評価指標を選ぶときの基本的な考え方

データのクラス比率を確認する

誤検知と見逃し、どちらが問題か？

スコアの順位が重要か？

誤差の大きさをどう扱いたいか？

よくある誤解と注意点

Accuracy は万能ではない

Precision と Recall はトレードオフ

AUC はモデルの「しきい値に依存しない能力」を見る指標

評価の進め方（一般プロセス）

機械学習の評価指標について

AI実装検定のご案内

機械学習における評価指標の重要性

タスク別の評価指標

二値分類（Binary Classification）

Accuracy（正解率）

Precision（適合率）

Recall（再現率）

F1 Score

ROC-AUC

PR-AUC

多クラス分類（Multi-class Classification）

Macro F1

Weighted F1

Top-K Accuracy

回帰（Regression）

MAE（平均絶対誤差）

MSE（平均二乗誤差）

RMSE（平方根平均二乗誤差）

R²（決定係数）

ランキングタスク

MAP（Mean Average Precision）

NDCG

MRR（Mean Reciprocal Rank）

混同行列（Confusion Matrix）で理解する分類評価

評価指標を選ぶときの基本的な考え方

データのクラス比率を確認する

誤検知と見逃し、どちらが問題か？

スコアの順位が重要か？

誤差の大きさをどう扱いたいか？

よくある誤解と注意点

Accuracy は万能ではない

Precision と Recall はトレードオフ

AUC はモデルの「しきい値に依存しない能力」を見る指標

評価の進め方（一般プロセス）

関連記事