決定木のエントロピーについて

2025年12月21日

決定木におけるエントロピーとは、「そのデータ集合がどれくらい予測しにくい状態か」を表す指標です。

言い換えると、

クラスがきれいに分かれている → 予測しやすい → エントロピーが低い
クラスが入り混じっている → 予測しにくい → エントロピーが高い

という関係になります。

決定木は、分割を繰り返しながら「できるだけ予測しやすい状態（エントロピーが低い状態）」を作るアルゴリズムです。

エントロピーが「0」になるケース

あるノードに含まれるデータが、すべて同じクラスだった場合、そのノードのエントロピーは最小になります。

例として、

全データが「Yes」
全データが「No」

のように、結果が最初から確定している状態では、これ以上情報を得る必要がありません。

この状態が、決定木における「完全に純粋なノード」であり、エントロピーはゼロになります。

エントロピーが最大になるケース

一方で、クラスが均等に混ざっている場合、エントロピーは最大になります。

2クラス分類で、どちらも同じ割合
多クラス分類でも、すべてのクラスがほぼ同じ割合

このような状態では、次にどのクラスになるか全く読めないため、予測の不確かさが最も大きくなります。

なお、エントロピーの最大値は「クラス数」によって決まります。

2クラスなら最大は1
3クラスならそれより大きい値
クラス数が増えるほど最大値も大きくなる

という特徴があります。

なぜ決定木はエントロピーを使うのか

決定木の学習は、次の考え方に基づいています。

まず全データが1つの塊として存在する
そこには複数のクラスが混在している
どこかで分割すれば、クラスの混ざり具合を減らせる
「一番きれいに分かれる分割」を選びたい

ここで重要になるのが、「分割によって、どれだけ予測しやすくなったか」という視点です。

エントロピーは、この「予測しやすさの改善量」を評価するための基準として使われます。

情報利得との関係

実際の決定木では、エントロピーそのものではなく、情報利得という指標を使って分割を選びます。

情報利得とは、

分割する前のエントロピー
分割した後のエントロピー（複数のグループの平均）

この差を表したものです。

つまり、

情報利得が大きい
→ 分割によって予測しやすさが大きく改善した
情報利得が小さい
→ 分割してもあまり状況が変わらない

という意味になります。

決定木は、情報利得が最も大きくなる特徴量を選んで分割していきます。

「良い分割」とはどんな分割か

良い分割には、次の特徴があります。

分割後の各グループで、ほぼ1つのクラスだけが残る
少なくとも「混ざり具合」が明確に減っている
人間が見ても「なるほど」と納得できる分かれ方

逆に、

分割しても各グループにクラスが混在している
見た目は分かれているが予測精度が上がらない

このような分割は、情報利得が小さくなり、選ばれにくくなります。

エントロピーを使う際の注意点

エントロピー（情報利得）には、重要な欠点があります。

それは、値の種類が多い特徴量を過剰に高く評価してしまうという点です。

例えば、

ユーザーID
会員番号
一意に近い識別子

のような特徴量で分割すると、ほぼ1データずつに分かれてしまい、見かけ上は「完全に予測できている」状態になります。

しかしこれは本質的な学習ではなく、単なる丸暗記（過学習）です。

この問題を避けるために、

情報利得を補正した「情報利得率」
そもそもID系の特徴量を除外する

といった対策が取られます。

他の不純度指標との位置づけ

エントロピー以外にも、決定木では不純度を測る指標があります。

ジニ不純度
分類誤差

これらはすべて「混ざり具合」を測る指標ですが、

エントロピー：理論的に厳密、情報量の解釈がしやすい
ジニ不純度：計算が軽く、実務でよく使われる
分類誤差：直感的だが分割判断には粗い

という違いがあります。

実務では、エントロピーとジニ不純度は目的はほぼ同じで、結果も大きくは変わらないケースが多いです。

まとめ

エントロピーは「予測の不確かさ」を表す指標
クラスが1つだけなら最小、均等に混ざるほど大きくなる
決定木は、分割によってエントロピーを減らすことを目的とする
実際の分割判断では「情報利得」を使う
多値属性に弱いという欠点があり、実務では注意が必要

この理解があると、「なぜその特徴量で分割されたのか」を説明できるようになり、決定木モデルの解釈力が一段上がります。

以上、決定木のエントロピーについてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！