決定木の過学習について

AI実装検定のご案内

決定木(Decision Tree)は、直感的で解釈しやすく、非線形な関係も捉えられるという強力な利点を持つ一方で、過学習(overfitting)を起こしやすいモデルとしても広く知られています。

ここでは、

  • 決定木における過学習の正確な意味
  • なぜ構造的に過学習しやすいのか
  • 実務・研究の両面で一般的な対策

を誤解が生じないよう丁寧に整理します。

目次

決定木の「過学習」とは

決定木における過学習とは、

学習データに対しては非常に高い精度を示すが、
未知データに対する予測性能(汎化性能)が低下している状態

を指します。

典型的には次のような挙動が観察されます。

  • 学習データの精度が極端に高い
  • テストデータや検証データで精度が大きく下がる
  • 木が深く、分岐や葉ノードが過剰に多い
  • 分岐条件が人間にとって直感的に理解しづらい

これは「モデルが本質的な規則」ではなく、学習データに含まれるノイズや偶然の偏りまで学習してしまっている状態です。

なぜ決定木は過学習しやすいのか

分割が貪欲法(greedy)で行われるため

決定木は各ノードにおいて、

  • Gini係数
  • エントロピー
  • 情報利得

などの指標を用い、その時点で最も不純度を下げる分割を選択します。

この分割は「局所最適」であり、木全体としての最適性が保証されるわけではありません。

その結果、

  • 偶然発生したデータの偏り
  • 外れ値
  • 再現性のない相関

を「意味のあるルール」と誤認したまま、木が成長してしまうことがあります。

制約が弱いと木が過度に複雑化しやすい

決定木は、停止条件が許す限り分割を続けます。

ただし重要なのは、

  • データが有限であるため「無限に」分割されることはない
  • 実装上も、不純度が改善しない場合などには分割が止まる

という点です。

それでも、

  • 木の深さ
  • 葉ノードの最小サンプル数

などに十分な制約を設けない場合、非常に深く、細分化された木が生成されやすくなります。

これは実質的に、

「学習データをほぼ暗記している状態」

に近く、汎化性能の低下を招きます。

分散(variance)が大きくなりやすい

決定木は、学習データが少し変わるだけで木の構造が大きく変わりやすいという特徴を持ちます。

これは機械学習の観点では、

  • バイアスは比較的小さい
  • 分散が大きいモデル

と表現されます。

この「高分散」こそが、決定木が過学習しやすい本質的な理由の一つです。

高次元・少サンプルではリスクがさらに高まる

高次元・少サンプルの条件では、

  • 偶然の相関が発生しやすい
  • データ分割の自由度が高くなる

ため、どのモデルでも過学習リスクは高まります。

決定木は内部で特徴量選択を行えるという利点を持つ一方、深くなりやすく分散が増大しやすいため、特に慎重な制約設定が必要になります。

過学習を防ぐための代表的な方法

事前剪定(Pre-pruning)

木の成長そのものを制限する方法です。

代表的な制御パラメータには以下があります。

  • max_depth:木の最大深さ
  • min_samples_split:分割に必要な最小サンプル数
  • min_samples_leaf:葉ノードに含まれる最小サンプル数
  • max_features:分割時に考慮する特徴量数

実務では、まずこれらを調整するのが基本です。

事後剪定(Post-pruning / Cost Complexity Pruning)

一度十分に成長させた木に対し、

  • モデルの複雑さ
  • 誤差

のトレードオフを評価し、予測性能の改善に寄与しない分岐を削除します。

これにより、過剰に複雑な構造を抑えつつ汎化性能を向上させます。

クロスバリデーションによる検証

学習データだけを見ていると、過学習はほぼ確実に見逃されます。

  • K-fold クロスバリデーション
  • 時系列データでは TimeSeries Split

などを用い、性能が安定しているかを必ず確認します。

アンサンブル手法の活用(実務では最重要)

単体の決定木は高分散ですが、複数の木を組み合わせることでその弱点を大きく改善できます。

  • ランダムフォレスト
  • 勾配ブースティング系手法(GBDT など)

これらは、

  • データや特徴量をランダム化
  • 過学習した木同士のクセを平均化

することで、単体木よりはるかに高い汎化性能を実現します。

解釈性と過学習のトレードオフ

決定木の大きな利点は、

  • 分岐構造が人間に理解しやすい
  • ルールベースで説明可能

という点です。

ただし、

  • 木を深くするほど精度は上がりやすい
  • 同時に解釈性は低下し、過学習リスクが高まる

というトレードオフが存在します。

そのため、

  • 説明性重視の業務:浅い決定木
  • 予測精度最優先:アンサンブル手法

という使い分けが一般的です。

まとめ

  • 決定木は構造上、過学習しやすいモデルである
  • 主因は
    • 貪欲な分割
    • 木の複雑化
    • 高分散という性質
  • 対策としては
    • 事前剪定
    • 事後剪定
    • クロスバリデーション
    • アンサンブル手法
      が有効
  • 実務では「単体木をそのまま使う」よりも、
    目的に応じた制約や手法選択が重要

以上、決定木の過学習についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次