適合率とは何か
「適合率(Precision)」とは、モデルが「正」と予測したもののうち、実際に正しかった割合のことです。
つまり、AIや機械学習モデルが「これはポジティブ(陽性)だ」と判断したケースの中で、どれだけ正解していたかを表す指標です。
たとえばスパムメール判定モデルの場合、「スパム」と予測したメールのうち、どの程度が本当にスパムだったのかを示します。
誤って通常のメールをスパム扱いしてしまうと(これを「偽陽性」と呼びます)、ユーザー体験を損なうため、適合率が高いほど信頼できるモデルといえます。
再現率との違い
適合率とよくセットで使われるのが「再現率(Recall)」です。
この二つは似ていますが、焦点が異なります。
- 適合率(Precision):予測した「正」の中で、本当に正しかった割合
- 再現率(Recall):実際に「正」であるものの中で、どれだけ正しく検出できたか
たとえば、スパム検知で言えば
- 適合率が高いモデル → 「スパムと判定したメールは、ほぼ確実にスパム」
- 再現率が高いモデル → 「ほとんどのスパムメールを見逃さずに検出」
どちらを重視するかは、タスクの性質やリスクの大きさによって変わります。
スパム判定の具体例
1000通のメールのうち、100通が本当のスパムメールだとします。
モデルが「スパム」と予測したメールが100通あり、そのうち90通は実際にスパム、10通は通常メールだったとしましょう。
この場合、モデルが「スパム」と予測した100通のうち90通が正解しているため、適合率は9割ということになります。
つまり、「スパムと判断した中で、どれだけ本当にスパムだったか」を表すのが適合率です。
適合率が重要になる場面
適合率は特に「誤検出を避けたいケース」で重視されます。
以下のようなシーンが代表的です。
スパムメール検知
重要なメールを誤ってスパム扱いしてしまうと業務に支障が出ます。
そのため、「スパムと判断するなら確実にスパムであってほしい」という考え方で、適合率を高める方向でモデルを設計します。
不正検知(金融やセキュリティ)
正常な取引を誤って「不正」と判定すると顧客の信頼を損ねます。
このため、適合率を高め、誤報(偽陽性)を減らすことが重要です。
医療診断
医療の世界では少し複雑です。
一般的な検査では「患者を見逃さない(再現率重視)」ことが多いですが、治療が非常に高コストまたは侵襲的な場合には、「健康な人を誤って病気と診断しない(適合率重視)」ことも重視されます。
つまり、状況によってどちらを優先するかが異なります。
適合率を高める方法
適合率を上げるには、モデルが「正」と判定する条件をより厳しくするのが一般的です。
たとえば、モデルが予測結果を「確率」で出す場合、通常は50%以上を「正」と見なすことが多いですが、この基準を70%や80%に引き上げることで、「確信が強いときだけ正と判断する」ようになります。
ただしこの方法を取ると、慎重になりすぎて「本来正だったものを見逃す」リスクが増えます。
つまり、適合率が上がると再現率が下がりやすく、両者のバランスを取ることが重要です。
可視化による理解:PR曲線と混同行列
モデルの性能を視覚的に理解するために、次のような手法がよく使われます。
Precision-Recall曲線(PR曲線)
横軸に再現率、縦軸に適合率を取って、判定のしきい値を変えながら描くグラフです。
右上に張り付くようなカーブほど、精度と再現性の両立が取れた優れたモデルを意味します。
混同行列(Confusion Matrix)
「正しく当てた」「見逃した」「誤って当てた」といった件数を一覧で整理した表です。
これを見れば、誤判定の種類(偽陽性・偽陰性など)を直感的に理解できます。
実務での使い分けの指針
| タスク | 重視すべき指標 | 理由 |
|---|---|---|
| スパムフィルター | 適合率 | 重要メールを誤って除外しないため |
| がん検診 | 再現率 | 患者を見逃すほうが重大なため |
| 商品レコメンド | 適合率 | ユーザーに無関係な提案を減らすため |
| 不正検知 | 適合率 | 誤って正常取引をブロックしないため |
このように、同じ「正確さ」でも、タスクによって重視する指標が変わります。
適合率と再現率のどちらを優先すべきかは、「どんな誤りが許されるか」というビジネスや社会的コストの観点から決めるのが実務的です。
まとめ
- 適合率は、「モデルが正と予測したものの中で、実際に正しかった割合」を示す。
- 誤って正と判定するリスクを下げたい場合に重要。
- 一方で、見逃しを避けたい場合は再現率を重視。
- 両者のバランスを取るには、しきい値調整やF1スコアの活用が有効。
- 実務では、目的・リスク・コスト構造に合わせて指標を選ぶことが肝心。
以上、機械学習の適合率についてでした。
最後までお読みいただき、ありがとうございました。
