決定木におけるエントロピーとは、「そのデータ集合がどれくらい予測しにくい状態か」を表す指標です。
言い換えると、
- クラスがきれいに分かれている → 予測しやすい → エントロピーが低い
- クラスが入り混じっている → 予測しにくい → エントロピーが高い
という関係になります。
決定木は、分割を繰り返しながら「できるだけ予測しやすい状態(エントロピーが低い状態)」を作るアルゴリズムです。
エントロピーが「0」になるケース
あるノードに含まれるデータが、すべて同じクラスだった場合、そのノードのエントロピーは最小になります。
例として、
- 全データが「Yes」
- 全データが「No」
のように、結果が最初から確定している状態では、これ以上情報を得る必要がありません。
この状態が、決定木における「完全に純粋なノード」であり、エントロピーはゼロになります。
エントロピーが最大になるケース
一方で、クラスが均等に混ざっている場合、エントロピーは最大になります。
- 2クラス分類で、どちらも同じ割合
- 多クラス分類でも、すべてのクラスがほぼ同じ割合
このような状態では、次にどのクラスになるか全く読めないため、予測の不確かさが最も大きくなります。
なお、エントロピーの最大値は「クラス数」によって決まります。
- 2クラスなら最大は1
- 3クラスならそれより大きい値
- クラス数が増えるほど最大値も大きくなる
という特徴があります。
なぜ決定木はエントロピーを使うのか
決定木の学習は、次の考え方に基づいています。
- まず全データが1つの塊として存在する
- そこには複数のクラスが混在している
- どこかで分割すれば、クラスの混ざり具合を減らせる
- 「一番きれいに分かれる分割」を選びたい
ここで重要になるのが、「分割によって、どれだけ予測しやすくなったか」という視点です。
エントロピーは、この「予測しやすさの改善量」を評価するための基準として使われます。
情報利得との関係
実際の決定木では、エントロピーそのものではなく、情報利得という指標を使って分割を選びます。
情報利得とは、
- 分割する前のエントロピー
- 分割した後のエントロピー(複数のグループの平均)
この差を表したものです。
つまり、
- 情報利得が大きい
→ 分割によって予測しやすさが大きく改善した - 情報利得が小さい
→ 分割してもあまり状況が変わらない
という意味になります。
決定木は、情報利得が最も大きくなる特徴量を選んで分割していきます。
「良い分割」とはどんな分割か
良い分割には、次の特徴があります。
- 分割後の各グループで、ほぼ1つのクラスだけが残る
- 少なくとも「混ざり具合」が明確に減っている
- 人間が見ても「なるほど」と納得できる分かれ方
逆に、
- 分割しても各グループにクラスが混在している
- 見た目は分かれているが予測精度が上がらない
このような分割は、情報利得が小さくなり、選ばれにくくなります。
エントロピーを使う際の注意点
エントロピー(情報利得)には、重要な欠点があります。
それは、値の種類が多い特徴量を過剰に高く評価してしまうという点です。
例えば、
- ユーザーID
- 会員番号
- 一意に近い識別子
のような特徴量で分割すると、ほぼ1データずつに分かれてしまい、見かけ上は「完全に予測できている」状態になります。
しかしこれは本質的な学習ではなく、単なる丸暗記(過学習)です。
この問題を避けるために、
- 情報利得を補正した「情報利得率」
- そもそもID系の特徴量を除外する
といった対策が取られます。
他の不純度指標との位置づけ
エントロピー以外にも、決定木では不純度を測る指標があります。
- ジニ不純度
- 分類誤差
これらはすべて「混ざり具合」を測る指標ですが、
- エントロピー:理論的に厳密、情報量の解釈がしやすい
- ジニ不純度:計算が軽く、実務でよく使われる
- 分類誤差:直感的だが分割判断には粗い
という違いがあります。
実務では、エントロピーとジニ不純度は目的はほぼ同じで、結果も大きくは変わらないケースが多いです。
まとめ
- エントロピーは「予測の不確かさ」を表す指標
- クラスが1つだけなら最小、均等に混ざるほど大きくなる
- 決定木は、分割によってエントロピーを減らすことを目的とする
- 実際の分割判断では「情報利得」を使う
- 多値属性に弱いという欠点があり、実務では注意が必要
この理解があると、「なぜその特徴量で分割されたのか」を説明できるようになり、決定木モデルの解釈力が一段上がります。
以上、決定木のエントロピーについてでした。
最後までお読みいただき、ありがとうございました。
