近年、AIやデータサイエンスという言葉が身近になり、ビジネスや研究の現場で「機械学習」を活用するケースが急増しています。
その中心的な技術のひとつが「教師あり学習」です。これは、過去のデータ(入力)とその結果(正解)をセットで与え、新しいデータが来たときに結果を予測できるように学習するという考え方です。
教師あり学習の中でも最も基本であり、かつ応用範囲が広いのが「回帰」と「分類」の2種類です
この2つは、どちらも「入力から出力を予測する」点では共通していますが、予測したいものが数値か、カテゴリーかによってアプローチが異なります。
以下では、両者の考え方・代表的な手法・評価方法などを、数式を使わずに丁寧に解説します。
目次
回帰(Regression)とは
概要
回帰とは、連続的な数値を予測するタスクです。
わかりやすく言うと、「どれくらいの値になるか」を予測する問題です。
たとえば
- 家の価格を予測する
- 来週の気温を予測する
- 生産量や売上などの将来値を見積もる
このように、結果が数値で表せる問題を扱うときに回帰が使われます。
主な手法
- 線形回帰
最も基本的な方法で、入力データと結果の間に直線的な関係があると仮定します。解釈しやすく、予測の仕組みが透明なのが特徴です。 - リッジ回帰・ラッソ回帰
線形回帰の発展形で、不要な特徴量を抑制したり、過学習を防いだりするために「制約」を加えたものです。データが多いときや複雑なときに安定した性能を発揮します。 - ランダムフォレスト回帰
多数の決定木(if-thenルールの集合)を組み合わせて予測する手法。直線的な関係に限らず、複雑なパターンも捉えることができ、外れ値にも比較的強い傾向があります。 - サポートベクター回帰(SVR)
データのばらつきの中で「誤差を一定範囲に抑える」ような線や曲線を探す手法。外れ値に敏感すぎないよう設計されています。 - ニューラルネットワーク回帰
多層構造を持つモデルで、複雑な非線形関係を学習できます。データが多く、特徴量同士の関係が複雑なときに真価を発揮します。
評価方法
回帰では、どれだけ実際の値に近い数値を出せたかで性能を評価します。
主な指標は次の通りです。
- 平均絶対誤差(MAE):予測値と実際の値の差をそのまま平均したもの。直感的に理解しやすい。
- 平均二乗誤差(MSE)/平方根平均二乗誤差(RMSE):誤差を二乗して平均するため、大きな外れ値を強く評価します。
- 決定係数(R²):モデルがどれだけデータの変動を説明できているかを示す指標。1に近いほど良い。
分類(Classification)とは
概要
分類は、データを特定のカテゴリ(クラス)に分類するタスクです。
こちらは「どのタイプに当てはまるか」を予測する問題で、数値ではなくラベル(文字やクラス名)を出力します。
たとえば
- メールが「スパム」か「通常」か
- 画像に写っているのが「犬」「猫」「鳥」などのどれか
- ユーザーが「離脱する」か「継続する」か
結果がカテゴリ分けできるときは、この分類の手法を用います。
主な手法
- ロジスティック回帰
もっとも基本的な分類モデル。入力データから、あるクラスに属する「確率」を出します。シンプルながら多くの実務で使われています。 - k近傍法(k-NN)
新しいデータが、学習データのどのあたりに位置しているかを見て、近くのデータの多数決で分類します。直感的でわかりやすい方法です。 - 決定木・ランダムフォレスト
「条件分岐」を繰り返して分類するルールベースの手法です。ランダムフォレストは複数の木を組み合わせることで精度を高め、過学習を抑えます。 - サポートベクターマシン(SVM)
異なるクラスをできるだけ広く分ける境界線を見つける手法です。少ないデータでも比較的精度を出しやすいのが特徴です。 - ニューラルネットワーク(ディープラーニング)
多層構造を持つモデルで、画像認識や音声認識などの複雑な分類に使われます。大量のデータから高次の特徴を自動的に学習します。
評価方法
分類では、「どれだけ正しくクラスを当てられたか」を様々な角度から測定します。
- 正解率(Accuracy):全体のうち、正しく分類できた割合。
- 適合率(Precision):ポジティブと予測した中で、実際に正しかった割合。
- 再現率(Recall):本当にポジティブであるものの中で、正しく予測できた割合。
- F1スコア:PrecisionとRecallのバランスを評価する指標。
- AUC(ROC曲線の下の面積):しきい値を変化させたときの性能を総合的に測る尺度。0.5がランダム、1.0が理想的。
回帰と分類の違いまとめ
| 観点 | 回帰 | 分類 |
|---|---|---|
| 予測対象 | 連続値(数値) | カテゴリ(ラベル) |
| 目的 | 数値の予測 | クラスの識別 |
| 出力例 | 価格・気温・生産量など | スパム/非スパム、犬/猫など |
| 代表的手法 | 線形回帰、ランダムフォレスト回帰など | ロジスティック回帰、SVM、決定木など |
| 主な評価指標 | MAE、RMSE、R²など | Accuracy、Precision、Recall、F1、AUCなど |
実務での注意点
- データの分割と検証設計
モデルを評価する際は、データを学習用と検証用に分け、未知データに対してどれほど正確に予測できるかを確かめます。時系列データでは、時間順を守って分割することが重要です。 - データの前処理
特徴量のスケール(数値の大きさ)に差がある場合、正規化や標準化を行うことで学習の安定性を保てます。特にSVMやk-NNでは必須です。 - クラスの不均衡問題
あるクラスが極端に少ない場合、正解率だけで評価すると誤った印象を与えることがあります。その場合は、Precision・Recall・AUCなどを重視します。 - しきい値の最適化
分類モデルは通常「確率」を出すため、どの確率を境にクラスを分けるか(しきい値)を調整することで、誤検知と見逃しのバランスをコントロールできます。 - 過学習への注意
学習データに過剰に適応してしまうと、実際の運用で精度が下がります。正則化、特徴量選択、交差検証などを活用して過学習を防ぎましょう。
まとめ
- 回帰は「どれくらい」を数値で予測する。
- 分類は「どのタイプか」を判断する。
- どちらも「教師あり学習」に属し、入力と正解データをもとに学習する。
- 目的変数(出力)の性質が数値かラベルかで手法が分かれる。
- 評価では、目的に応じて指標を選び、過学習を防ぐ仕組みを設計することが重要。
以上、機械学習の回帰と分類についてでした。
最後までお読みいただき、ありがとうございました。
