機械学習のRecallについて

2025年11月13日

機械学習モデルの性能を評価するとき、多くの指標が登場しますが、その中でも「見逃しを防ぐ」という観点で特に重視されるのが Recall（再現率） です。

医療や不正検知、レコメンドなど、実務の現場ではこの Recall の高さがシステムの信頼性や価値を左右することも珍しくありません。

この記事では、Recall の基本的な考え方から、Precision（適合率）との違い、実務での使い方、そして改善の方向性まで、コードを使わずに丁寧に解説します。

Recall（再現率）とは？

Recall は、本来ポジティブであるものを、どれだけ正しくポジティブと判定できたかを示す指標です。

ここでいう「ポジティブ」とは、例えば「病気がある」「不正が発生した」「ユーザーが興味を持つ可能性が高い」といった“該当すべきもの”のことを指します。

モデルが該当すべきケースを正しく拾えていれば Recall は高くなり、逆に取りこぼしが多いほど低くなります。

つまり、見逃しが少ないほど優秀なモデルと言えるのです。

Precision と Recall の違い

Recall を理解するためには、しばしば比較される Precision（適合率） との違いを押さえておくと理解が深まります。

Precision は「モデルがポジティブと判断したもののうち、どれだけ正しかったか」を見る指標
Recall は「本来ポジティブだったものを、どれだけ取りこぼさず検出できたか」を見る指標

この2つは一見似ていますが、評価している対象が異なります。

また、両者はしばしばトレードオフになります。

ポジティブ判定の基準をゆるくすると、より多くのケースを“拾える”ため Recall は上がりますが、不正確な判定も増えて Precision は下がりがちになります。

逆に、判定基準を厳しくすると Precision は上がるものの、取りこぼしが増えて Recall は下がりがちです。

この関係を理解しつつ、目的に応じてどちらを優先すべきか判断することが重要です。

Recall が重要になるケース

Recall はすべてのプロジェクトで重視されるわけではありませんが、「見逃してはいけない」という明確な理由がある分野では非常に重視されます。

医療分野（例：がん検査）

医療診断では、特に見逃しが致命的な結果につながるため、わずかな兆候でも拾い上げることが重要です。

多少誤った陽性が含まれても二次検査で精査できるため、とにかく“見落とさないこと”が優先されます。

不正検知・サイバーセキュリティ

クレジットカードの不正利用やサイバー攻撃などは、一度でも見逃すと大きな損失になりかねません。

このため、検知の過敏さはある程度許容しつつ、少しでも疑わしいケースを拾うことが求められます。

レコメンドシステム

ユーザーが本当に興味を持ちそうな候補を「漏らさず提示する」ことが重要な場面では Recall が役立ちます。

ユーザーの選好を取りこぼさず候補に含められているかを確認する指標として重用されます。

Recall を改善するためのアプローチ

Recall は単なる結果ではなく、改善の余地があります。

モデルの設計や学習過程の工夫で、見逃しを減らし性能を向上させることが可能です。

判定基準（閾値）の調整

分類モデルには通常、ポジティブと判断するための基準値が設定されています。

これを少し低く設定することで、より多くのケースを「ポジティブ」として扱えるようになり、結果的に見逃しが減って Recall が改善しやすくなります。

クラス重みの調整

ポジティブクラスのデータが少ない場合、モデルはそのクラスの特徴を十分に学習できず見逃しが増えがちです。

このため、学習段階でポジティブクラスを「より重視する」設定を加えることで、モデルが少数クラスをしっかり学習し、Recall が改善することがあります。

データの不均衡を是正する

ポジティブとネガティブの割合が極端に偏っている場合、データの再構成によって改善が見込めます。

ポジティブを増やす
ネガティブを減らす
ポジティブに似たデータを生成して補う

などの工夫で、モデルがポジティブを学習しやすくなり、結果として Recall が向上します。

特徴量の改善（特徴量エンジニアリング）

ポジティブクラスとネガティブクラスの差が曖昧な状態では、モデルの判断も迷いがちです。

データを分解したり、新たな視点を与える特徴を追加したりすると、モデルがポジティブをより適切に識別できるようになり、Recall の改善につながります。

Precision と Recall のバランスを取る「F1スコア」

Precision と Recall はどちらか一方だけが高ければよいとは限りません。

両者のバランスを評価するために使われるのがF1 スコアです。

F1 スコアは、Precision と Recall のバランスを良くする方向にモデルを調整したいときに役立ちます。

どちらか一方が極端に低いとスコアが伸びないため、総合的な判断指標として利用されることが多いです。

実務で Recall をどう扱うべきか

実務では、単に指標を高めればよいというわけではなく、状況に応じた判断が非常に重要です。

見逃しコストと誤検知コストの比較

取りこぼしが大きな損害につながる場合 → Recall を優先
誤検知による迷惑や業務負担が大きい場合 → Precision を優先

この考え方によって、課題設定とモデル改善の方向性が大きく変わります。

閾値調整による最適化

モデルが出力する予測スコアに応じて閾値を調整し、Recall と Precision のバランスを探ります。

多くの現場で、この“閾値最適化”は A/B テストと併用しながら行われます。

継続的なモニタリング

モデルは時間の経過とともに性能が変動するため、定期的に Recall を監視し、必要に応じて再学習や設定変更を行うことが重要です。

まとめ：Recall は「見逃しをなくす」ための重要な視点

Recall は、モデルが本来検知すべき対象をどれだけ正しく拾えているかを示す、非常に重要な指標です。

見逃しを減らすほど Recall は上がる
Precision とのバランスが常に求められる
医療や不正検知など、見逃しが許されない領域で特に重要
閾値調整、データ改善、特徴量設計などで向上可能
実務ではビジネスの“損失構造”に基づいた判断が不可欠

以上、機械学習のRecallについてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！