決定木分析(Decision Tree Analysis)とは、データを条件分岐によって段階的に分割し、最終的に分類または数値予測を行う分析手法です。
分析の流れは「もし○○なら△△」というルールの集合として表現され、結果は木(ツリー)構造で可視化されます。
統計学・機械学習の分野で広く用いられており、モデルの挙動を人が理解しやすいという点が大きな特徴です。
決定木分析の基本構造
決定木は、主に次の3つの要素で構成されます。
ルートノード(Root Node)
分析対象となるすべてのデータが含まれる出発点です。
内部ノード(Internal Node)
特徴量(説明変数)に基づいてデータを分割するポイントです。
多くの場合、数値変数は次のような形式で分岐されます。
- 例
- 「変数A ≤ ある閾値か?」
- 「変数B > 一定値か?」
この閾値(しきい値)は、あらかじめ人が決めるものではなく、分割後の評価指標が最も良くなるように、データから自動的に学習されます。
葉ノード(Leaf Node)
それ以上分割されない最終地点で、モデルの予測結果が出力されます。
- 分類問題:クラス(カテゴリ)
- 回帰問題:数値の代表値(通常は平均)
決定木分析の2つの種類
分類木(Classification Tree)
離散的なクラス(カテゴリ)を予測するための決定木です。
例
- クラスA / クラスB
- 正常 / 異常
- 種類1 / 種類2 / 種類3
回帰木(Regression Tree)
連続値(数値)を予測するための決定木です。
例
- 数値スコア
- 計測値
- 将来値の推定
決定木はどのように分岐条件を決めているのか
決定木の学習は、「分割後のデータができるだけ均質になる条件」を繰り返し探索するというプロセスで進みます。
分類木の場合
代表的な評価指標には、以下があります。
- ジニ不純度(Gini impurity)
- エントロピーと情報利得(Information Gain)
これらは、
分割後に、異なるクラスがどれだけ混ざっているか
を数値化する指標であり、不純度が最も小さくなる分割が選ばれます。
回帰木の場合
一般的には、分割後の 平均二乗誤差(MSE) が最小になるように分岐が決定されます。
これは、
同じ葉ノード内に含まれる数値が、できるだけ近い値になる
ようにデータをまとめることを意味します。
決定木分析のメリット
モデル構造が直感的で理解しやすい
- 条件分岐の流れを視覚的に確認できる
- 判断ルールを言語化しやすい
- 数式の理解がなくてもモデルの挙動を追いやすい
この解釈性の高さは、決定木の大きな利点です。
非線形な関係を自然に表現できる
決定木は、
- 変数同士の複雑な組み合わせ
- 特定条件下でのみ成立する関係
といった非線形な構造を、そのまま条件分岐として表現できます。
スケーリングが不要な場合が多い
距離計算を前提としないため、
- 標準化
- 正規化
といった前処理は、多くのケースで必須ではありません(ただし、他のモデルと併用する場合は例外があります)。
決定木分析の注意点・デメリット
過学習しやすい
決定木を深く成長させすぎると、学習データに過度に適合したモデルになりやすくなります。
主な対策
- 最大深さの制限(max_depth)
- 葉ノードの最小サンプル数(min_samples_leaf)
- 分割に必要な最小サンプル数(min_samples_split)
- コスト複雑度剪定(ccp_alpha)
実務では、パラメータ制御によって複雑さを抑える方法が主流です。
データの変化に対して不安定になりやすい
決定木は、
- 学習データが少ない場合
- ノイズを多く含む場合
にわずかなデータ変更で構造が大きく変わることがあります。
カテゴリ変数の扱いは実装依存
理論上、決定木はカテゴリ変数を扱えますが、実装上の制約には注意が必要です。
- 一般的な実装では
→ 数値入力が前提となるため、
カテゴリ変数はエンコード(one-hot など)が必要 - 一部の実装では
→ カテゴリ変数を内部的に処理できる場合もある
「前処理が一切不要」と理解するのは誤りです。
決定木とアンサンブル手法の関係
決定木は単体でも利用できますが、複数の決定木を組み合わせることで性能を向上させる手法が広く使われています。
- ランダムフォレスト
→ 複数の決定木の予測結果を平均・多数決する手法 - 勾配ブースティング系手法
→ 決定木を順番に学習させ、誤差を段階的に減らす手法
これらは、決定木の弱点(不安定性・過学習)を補う目的で用いられます。
まとめ
- 決定木分析は、条件分岐を繰り返して予測・分類を行う手法
- 分類木と回帰木の2種類がある
- 構造が直感的で解釈しやすい
- 非線形な関係を扱える
- 過学習や不安定性には注意が必要
- 実務ではアンサンブル手法と組み合わせて使われることが多い
以上、決定木分析についてでした。
最後までお読みいただき、ありがとうございました。
