機械学習の適合率について

AI実装検定のご案内

目次

適合率とは何か

「適合率(Precision)」とは、モデルが「正」と予測したもののうち、実際に正しかった割合のことです。

つまり、AIや機械学習モデルが「これはポジティブ(陽性)だ」と判断したケースの中で、どれだけ正解していたかを表す指標です。

たとえばスパムメール判定モデルの場合、「スパム」と予測したメールのうち、どの程度が本当にスパムだったのかを示します。

誤って通常のメールをスパム扱いしてしまうと(これを「偽陽性」と呼びます)、ユーザー体験を損なうため、適合率が高いほど信頼できるモデルといえます。

再現率との違い

適合率とよくセットで使われるのが「再現率(Recall)」です。

この二つは似ていますが、焦点が異なります。

  • 適合率(Precision):予測した「正」の中で、本当に正しかった割合
  • 再現率(Recall):実際に「正」であるものの中で、どれだけ正しく検出できたか

たとえば、スパム検知で言えば

  • 適合率が高いモデル → 「スパムと判定したメールは、ほぼ確実にスパム」
  • 再現率が高いモデル → 「ほとんどのスパムメールを見逃さずに検出」

どちらを重視するかは、タスクの性質やリスクの大きさによって変わります。

スパム判定の具体例

1000通のメールのうち、100通が本当のスパムメールだとします。

モデルが「スパム」と予測したメールが100通あり、そのうち90通は実際にスパム、10通は通常メールだったとしましょう。

この場合、モデルが「スパム」と予測した100通のうち90通が正解しているため、適合率は9割ということになります。

つまり、「スパムと判断した中で、どれだけ本当にスパムだったか」を表すのが適合率です。

適合率が重要になる場面

適合率は特に「誤検出を避けたいケース」で重視されます。

以下のようなシーンが代表的です。

スパムメール検知

重要なメールを誤ってスパム扱いしてしまうと業務に支障が出ます。

そのため、「スパムと判断するなら確実にスパムであってほしい」という考え方で、適合率を高める方向でモデルを設計します。

不正検知(金融やセキュリティ)

正常な取引を誤って「不正」と判定すると顧客の信頼を損ねます。

このため、適合率を高め、誤報(偽陽性)を減らすことが重要です。

医療診断

医療の世界では少し複雑です。

一般的な検査では「患者を見逃さない(再現率重視)」ことが多いですが、治療が非常に高コストまたは侵襲的な場合には、「健康な人を誤って病気と診断しない(適合率重視)」ことも重視されます。

つまり、状況によってどちらを優先するかが異なります。

適合率を高める方法

適合率を上げるには、モデルが「正」と判定する条件をより厳しくするのが一般的です。

たとえば、モデルが予測結果を「確率」で出す場合、通常は50%以上を「正」と見なすことが多いですが、この基準を70%や80%に引き上げることで、「確信が強いときだけ正と判断する」ようになります。

ただしこの方法を取ると、慎重になりすぎて「本来正だったものを見逃す」リスクが増えます。

つまり、適合率が上がると再現率が下がりやすく、両者のバランスを取ることが重要です。

可視化による理解:PR曲線と混同行列

モデルの性能を視覚的に理解するために、次のような手法がよく使われます。

Precision-Recall曲線(PR曲線)

横軸に再現率、縦軸に適合率を取って、判定のしきい値を変えながら描くグラフです。

右上に張り付くようなカーブほど、精度と再現性の両立が取れた優れたモデルを意味します。

混同行列(Confusion Matrix)

「正しく当てた」「見逃した」「誤って当てた」といった件数を一覧で整理した表です。

これを見れば、誤判定の種類(偽陽性・偽陰性など)を直感的に理解できます。

実務での使い分けの指針

タスク重視すべき指標理由
スパムフィルター適合率重要メールを誤って除外しないため
がん検診再現率患者を見逃すほうが重大なため
商品レコメンド適合率ユーザーに無関係な提案を減らすため
不正検知適合率誤って正常取引をブロックしないため

このように、同じ「正確さ」でも、タスクによって重視する指標が変わります。

適合率と再現率のどちらを優先すべきかは、「どんな誤りが許されるか」というビジネスや社会的コストの観点から決めるのが実務的です。

まとめ

  • 適合率は、「モデルが正と予測したものの中で、実際に正しかった割合」を示す。
  • 誤って正と判定するリスクを下げたい場合に重要。
  • 一方で、見逃しを避けたい場合は再現率を重視。
  • 両者のバランスを取るには、しきい値調整やF1スコアの活用が有効。
  • 実務では、目的・リスク・コスト構造に合わせて指標を選ぶことが肝心。

以上、機械学習の適合率についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次