機械学習の目的変数について

2025年11月10日

目的変数（target variable）は、機械学習モデルが最終的に予測・分類・推定したい結果を表す変数です。

統計学的には「従属変数（dependent variable）」とも呼ばれ、教師あり学習においては「正解ラベル」として扱われます。

モデルは説明変数（特徴量）からこの目的変数を再現できるように学習します。

目的変数の種類と学習タスク

目的変数の型によって、適切な学習タスクやモデル、評価指標が異なります。

目的変数の型	タスク	モデル例	主な評価指標
数値（連続値）	回帰	線形回帰、ランダムフォレスト回帰、XGBoost	RMSE、MAE、R²
カテゴリ（離散値）	分類	ロジスティック回帰、SVM、決定木、LightGBM	Accuracy、F1、AUC
順序付きカテゴリ	順序分類	Ordinal Logistic Regression、CatBoost	QWK
複数ラベル	マルチラベル分類	Classifier Chain、DNN（sigmoid出力）	Micro/Macro F1、Hamming Loss
時系列データ	時系列予測	ARIMA、LSTM、Transformer	RMSE、MAPE

この分類を誤ると、学習アルゴリズムの選定や性能評価の指標がずれ、結果の解釈を誤る原因となります。

モデル構築の出発点は「何を最適化したいか」です。

ビジネス上の意思決定に直結する定義でなければ、モデルの出力が現実の施策に結びつきません。

目的変数は予測時点より未来の情報を基準に定義する必要があります。

「予測時点でまだ分からない情報」を含めるとデータリークが発生し、学習時には高精度でも実運用では機能しません。

目的変数は「正解データ」であるため、ノイズや欠損が多いと学習が不安定になります。

特にログや履歴データから自動生成する場合は、ラベル付けルールを厳密に定義することが重要です。

分類問題では、ラベルの偏り（例：1が1%しかない）が大きな課題になります。

このような場合、モデルは「常に0を予測する」だけでも高いAccuracyを示すことがあります。

代表的な対策

また、精度指標にはAccuracyではなくF1スコアやAUCを使う方が、モデルの実力を正確に評価できます。

目的変数は生データから直接得られるとは限りません。

多くの場合、加工・集計・ルール定義を経て生成します。

回帰タスクの場合は、外れ値の影響を減らすためにログ変換や分位点カットを行うことも有効です。

説明変数（特徴量）は目的変数を予測するための要因群です。

目的変数との関係は「因果ではなく相関」であり、予測時点で得られる情報だけを使うのが鉄則です。

これらは学習データ上では高精度でも、実際には利用できない未来情報を含んでおり、運用時に破綻します。