機械学習の説明変数について

2025年11月11日

機械学習モデルを構築するとき、「どんなデータを入力に使うか」は最も重要なポイントのひとつです。

その入力データを指すのが 説明変数（explanatory variable） です。別名で「特徴量（feature）」や「入力変数」とも呼ばれ、モデルが目的変数（予測したい値）を推定・説明するための基礎になります。

この記事では、説明変数の定義から種類、前処理、選定方法まで、実務にも使えるレベルで詳しく解説します。

説明変数とは何か

説明変数とは、目的変数と関係があると考えられる入力データのことです。

モデルはこれらの説明変数をもとに、「目的変数をどのように予測できるか」を学習します。

機械学習の文脈では、「説明変数」「特徴量」「入力変数」はほぼ同じ意味で使われます。

ただし統計学的には微妙な差異があり、厳密には「独立変数」と区別されることもあります。

説明変数にはさまざまなタイプがあり、変数の種類によって前処理や変換の方法が変わります。

これらはモデル学習時にスケール差があると不安定になるため、標準化（平均0・分散1）や正規化（0〜1スケーリング）がよく使われます。

文章、画像、音声などの複雑なデータは、TF-IDF、Word2Vec、CNNなどによって特徴ベクトル（説明変数）に変換します。
現代ではBERTやVision Transformerの埋め込みもよく使われます。

説明変数はそのままでは使えないことが多く、精度を高めるためにさまざまな前処理が行われます。

すべての変数を使えばよいわけではありません。

不要な変数が多すぎると、過学習や解釈の難化を招きます。

以下のような方法で有効な説明変数を選定します。

目的変数と強く相関する変数を選ぶ。

（例：Pearson相関係数、スピアマン順位相関）

カテゴリ変数の場合、カイ二乗検定などで関連度を評価。

ランダムフォレストやXGBoostなどでは、feature_importances_から変数重要度を確認可能。

Lasso回帰（L1正則化）は不要な変数の係数を0にして自動的に特徴選択を行います。

説明変数の数は多ければ良いわけではなく、サンプル数に対して多すぎると不安定になります。

特に回帰系モデルでは「サンプル数 ≫ 特徴量数」を意識するのが基本です。

モデルがどの説明変数を重視しているかを知ることは、信頼性の高い分析につながります。

因果関係と相関の混同に注意
説明変数は目的変数と「関連がある」ことを示すものであり、必ずしも「原因」ではありません。
多重共線性に気をつける
線形回帰モデルでは、変数同士の強い相関が係数推定を不安定にします。
決定木系では予測精度への影響は小さいものの、変数重要度の解釈には注意が必要です。
ドメイン知識の活用
データ分析だけでなく、ビジネスや業務の知見を反映した変数設計が精度向上の鍵になります。