決定木の回帰について

AI実装検定のご案内

決定木回帰は、入力データを条件分岐によって段階的に分けていき、最終的に数値を予測する回帰手法です。

「もし〇〇ならA、そうでなければB」というルールを積み重ねていく点が最大の特徴で、人間の意思決定プロセスに近い形をしています。

分類問題で使われる「決定木」と基本構造は同じですが、最終的に出力するのがカテゴリではなく連続値である点が回帰との違いです。

目次

直感的なイメージ

たとえば「家賃を予測する」というケースを考えます。

  • 部屋の広さは一定以上か
  • 駅から徒歩何分以内か
  • 築年数は新しいか古いか

といった条件を順番に確認し、条件に合致した過去データの集まりから、代表的な家賃を答えとして返すこれが決定木回帰の基本的な考え方です。

モデルの構造

決定木回帰は、以下のような要素で構成されます。

  • ルートノード
    最初に行われる分割条件
  • 内部ノード
    特徴量に基づく条件分岐
  • 葉ノード(リーフ)
    実際の予測値を出力する最終地点

入力データは上から順に条件を判定され、最終的にどこか一つの葉ノードに到達します。

その葉ノードが持つ値が予測結果になります。

どのように分割が決まるのか

学習時、決定木回帰は次のような方針で分割を決めます。

  • データを二つに分けたとき
  • それぞれのグループ内で目的変数のばらつきが最も小さくなるような分け方

を探し続けます。

言い換えると、「同じグループに入ったデータ同士の値が、できるだけ似通うように分割する」ことを繰り返していきます。

この考え方は、分類木で使われる「不純度」を、回帰向けに置き換えたものだと理解すると分かりやすいです。

学習の流れ

決定木回帰の学習は、次のような手順で進みます。

  1. すべてのデータを一つのグループとして開始する
  2. すべての特徴量と分割候補を試す
  3. 最もデータのばらつきが小さくなる分割を選ぶ
  4. データを二つに分ける
  5. 各グループに対して同じ処理を繰り返す
  6. これ以上分けないと判断されたら、そこで分割を止める

この「分ける → 評価する → また分ける」という処理を再帰的に行うことで、木構造が作られていきます。

葉ノードで何が返されるのか

最終的な葉ノードでは、そのノードに含まれる目的変数の代表値が予測値として使われます。

  • 一般的には「平均値」が使われる
  • 絶対誤差を基準に学習する場合は「中央値」が使われることもある

どの値が使われるかは、「どの誤差基準で学習しているか」に依存します。

主要なハイパーパラメータ

最大深さ(max_depth)

  • 木がどこまで深く分割されるかを制限する
  • 深すぎると学習データに過剰に適合しやすい

分割に必要な最小サンプル数(min_samples_split)

  • データ数が少なすぎるノードで分割を行わないための制約

葉ノードの最小サンプル数(min_samples_leaf)

  • 葉に含まれるデータ数を一定以上に保つ
  • 過学習対策として特に効果が高い

使用する特徴量数(max_features)

  • 分割時に考慮する特徴量の数を制限
  • 特にアンサンブル手法で重要になる設定

決定木回帰の長所

  • 非線形な関係を自然に捉えられる
  • 特徴量のスケーリングや正規化がほとんど不要
  • 条件分岐として説明できるため、解釈性が高い
  • 特徴量同士の相互作用を自動的に扱える

決定木回帰の短所

  • 過学習しやすい
    制限なしで学習すると、訓練データをほぼ完全に記憶してしまう
  • 予測が階段状になる
    分割ごとに一定の値を返すため、滑らかな予測になりにくい
  • データの変化に不安定
    学習データが少し変わるだけで、木の構造が大きく変わることがある
  • トレンドを伴う外挿が苦手
    学習範囲を超えて連続的に伸びる予測はしにくい

外れ値についての注意点

決定木回帰は「外れ値に強い」と言われることがありますが、必ずしも常に強いわけではありません

  • 外れ値が分割位置に影響することがある
  • 平均値を使う場合、葉ノードの予測値が引っ張られることもある

そのため、外れ値が多いデータでは

  • 葉の最小サンプル数を増やす
  • 別の誤差基準を検討する

といった対策が重要になります。

実務での使われ方

実務では、決定木回帰を単体で使うことは比較的少ないです。

代わりに、

  • ランダムフォレスト
  • 勾配ブースティング系手法

といった、複数の決定木を組み合わせたアンサンブルモデルの基礎要素として使われることがほとんどです。

これにより、

  • 過学習の抑制
  • 予測の安定化
  • 精度の向上

が実現されます。

まとめ

  • 決定木回帰は、条件分岐によって入力空間を分割し、数値を予測する手法
  • 分割は「同じグループ内の値ができるだけ揃う」ように行われる
  • 解釈性が高く非線形に強い一方で、過学習や不連続な予測には注意が必要
  • 実務ではアンサンブル手法の構成要素として重要な役割を果たす

以上、決定木の回帰についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次