目的変数(target variable)は、機械学習モデルが最終的に予測・分類・推定したい結果を表す変数です。
統計学的には「従属変数(dependent variable)」とも呼ばれ、教師あり学習においては「正解ラベル」として扱われます。
モデルは説明変数(特徴量)からこの目的変数を再現できるように学習します。
| 入力データ(説明変数) | 目的変数(出力) |
|---|---|
| 気温・湿度・風速 | 明日の降水確率 |
| 年齢・職業・年収 | 購入確率 |
| 商品レビュー文 | ポジティブ/ネガティブ判定 |
| 画像のピクセル値 | 犬・猫・鳥の分類 |
目的変数の種類と学習タスク
目的変数の型によって、適切な学習タスクやモデル、評価指標が異なります。
| 目的変数の型 | タスク | モデル例 | 主な評価指標 |
|---|---|---|---|
| 数値(連続値) | 回帰 | 線形回帰、ランダムフォレスト回帰、XGBoost | RMSE、MAE、R² |
| カテゴリ(離散値) | 分類 | ロジスティック回帰、SVM、決定木、LightGBM | Accuracy、F1、AUC |
| 順序付きカテゴリ | 順序分類 | Ordinal Logistic Regression、CatBoost | QWK |
| 複数ラベル | マルチラベル分類 | Classifier Chain、DNN(sigmoid出力) | Micro/Macro F1、Hamming Loss |
| 時系列データ | 時系列予測 | ARIMA、LSTM、Transformer | RMSE、MAPE |
この分類を誤ると、学習アルゴリズムの選定や性能評価の指標がずれ、結果の解釈を誤る原因となります。
目的変数設計の基本方針
ビジネスゴールから逆算する
モデル構築の出発点は「何を最適化したいか」です。
- ECサイト:購入したか(0/1)
- 広告:クリックしたか(CTR)
- サブスク:翌月継続しているか(Yes/No)
ビジネス上の意思決定に直結する定義でなければ、モデルの出力が現実の施策に結びつきません。
時間軸と因果の一貫性
目的変数は予測時点より未来の情報を基準に定義する必要があります。
「予測時点でまだ分からない情報」を含めるとデータリークが発生し、学習時には高精度でも実運用では機能しません。
ラベルの品質
目的変数は「正解データ」であるため、ノイズや欠損が多いと学習が不安定になります。
特にログや履歴データから自動生成する場合は、ラベル付けルールを厳密に定義することが重要です。
不均衡データとラベル設計
分類問題では、ラベルの偏り(例:1が1%しかない)が大きな課題になります。
このような場合、モデルは「常に0を予測する」だけでも高いAccuracyを示すことがあります。
代表的な対策
- オーバーサンプリング(SMOTEなど)
- アンダーサンプリング
- クラス重みの調整
- 異常検知手法の応用(fraud検知など)
また、精度指標にはAccuracyではなくF1スコアやAUCを使う方が、モデルの実力を正確に評価できます。
目的変数生成のプロセス
目的変数は生データから直接得られるとは限りません。
多くの場合、加工・集計・ルール定義を経て生成します。
ステップ例
- 生データ確認
どのイベントを「結果」と見なすかを決定。 - 時間軸を確定
予測時点と結果確定時点を明確に区別。 - ラベルルールの定義
例:30日以内に購入→1、それ以外→0 - 外れ値・欠損の処理
ビジネス的に異常な値を除外。 - 分布の確認
ラベルのバランスを可視化し、偏りを把握。
回帰タスクの場合は、外れ値の影響を減らすためにログ変換や分位点カットを行うことも有効です。
目的変数と説明変数の関係
説明変数(特徴量)は目的変数を予測するための要因群です。
目的変数との関係は「因果ではなく相関」であり、予測時点で得られる情報だけを使うのが鉄則です。
リークの具体例
- 「購入日」から「購入有無」を予測
- 「成約済みフラグ」を説明変数にして「成約確率」を予測
これらは学習データ上では高精度でも、実際には利用できない未来情報を含んでおり、運用時に破綻します。
よくある設計ミス
| ミス | 結果 |
|---|---|
| 未来情報を含む | データリークで過学習 |
| 不均衡データを放置 | 偽の高精度モデルが生まれる |
| 定義が曖昧 | 再現性がない |
| 集計期間が短い | ノイズが多く予測が不安定 |
実務シナリオ別の目的変数例
広告クリック予測
- 目的変数:クリックした(1)/しなかった(0)
- 入力データ:ユーザー属性、広告タイプ、掲載時間、過去CTR
顧客離脱予測
- 目的変数:翌月継続(0)/離脱(1)
- 入力データ:利用頻度、課金履歴、サポート接触回数
売上予測
- 目的変数:特定期間の売上金額(連続値)
- 入力データ:在庫、価格、キャンペーン情報、広告費
まとめ
- 目的変数は、機械学習モデルの最終的な出力目標であり、定義の正確さが成果を左右します。
- 型(連続/カテゴリ/順序)によって学習タスク・モデル・評価指標が決まります。
- 設計時にはビジネス目的・時間軸・データ品質の3点を常に意識することが重要です。
目的変数の定義を誤れば、どれほど精巧なモデルを構築しても意味を失います。
一方で、明確に設計された目的変数は、機械学習をビジネス価値に結びつける最も強力な基盤になります。
以上、機械学習の目的変数についてでした。
最後までお読みいただき、ありがとうございました。
