機械学習のLasso回帰について

2025年11月5日

Lasso回帰とは

Lasso回帰（Least Absolute Shrinkage and Selection Operator）は、線形回帰の一種であり、過学習を防ぎながら不要な特徴量を自動的に排除できる「正則化」手法の代表格です。

通常の線形回帰では、すべての説明変数（特徴量）に対して重みを学習しますが、Lasso回帰はその際に「ペナルティ（罰則項）」を導入します。

これにより、影響の小さい変数の係数をゼロに近づけ、場合によっては完全にゼロにしてしまいます。

つまり、重要な変数だけを残す“特徴選択”を自動的に行うのがLasso回帰の大きな特徴です。

Lasso回帰とよく比較されるのが、同じく正則化を用いる「Ridge回帰」です。

どちらも過学習を防ぐ点では共通していますが、ペナルティの性質が異なります。

その結果、Ridgeは「すべての情報を少しずつ使う」モデルに、Lassoは「本当に重要な要素だけを残す」モデルになります。

特徴量が多いデータや、どの要素が本質的に効いているのかを見極めたいときに、Lassoは特に有効です。

Lasso回帰では、ペナルティの強さを決めるハイパーパラメータ（通常λやαで表される）が極めて重要です。

この値を小さくすれば通常の線形回帰に近づき、多くの特徴量が残ります。

逆に大きくすれば、不要な特徴量がどんどん削ぎ落とされ、よりシンプルなモデルになります。

最適な値は、一般的に「交差検証」という方法で自動的に見つけます。

Scikit-learnなどのライブラリでは、複数の候補を試し、予測精度が最も高い値を自動で選択できます。

Lassoが一部の係数を完全にゼロにするのは、ペナルティのかけ方に理由があります。

Lassoでは、パラメータが取り得る範囲を「ひし形」に近い制約領域として定義します。

その形状の角が軸に触れやすいため、自然と「ある係数はゼロ、別の係数は非ゼロ」という結果になりやすいのです。

一方、Ridge回帰は「円形」の制約領域を持つため、全ての係数が少しずつ縮まるものの、ゼロにはなりにくいという違いがあります。

Lasso回帰は、マーケティングデータのように多くの指標が絡み合う現場で特に威力を発揮します。

テレビ、SNS、検索広告、YouTubeなど、複数チャネルの広告データを扱うとき、Lassoを使えば「どの媒体が実際に売上に寄与しているか」を明確にできます。

影響の小さいチャネルの係数はゼロになるため、ROI（投資対効果）の高い施策を見極めることが可能です。

年齢、購買履歴、メール開封率、訪問頻度など、顧客に関する変数が多数ある場合にも有効です。

Lasso回帰は、購買行動や離脱に強く影響する変数を自動的に抽出してくれるため、ターゲティングやパーソナライズ施策の基盤づくりに役立ちます。

相関の強い変数があると、一部しか残らない
Lassoは似た動きをする変数が複数ある場合、どれか一つを残して他をゼロにしてしまう傾向があります。
そのため、強く相関した変数が多いデータでは、結果の安定性がやや低くなります。
スケーリング（標準化）はほぼ必須
変数ごとに単位やスケールが異なると、罰則の影響も偏ってしまいます。
そのため、事前に各変数を平均0・分散1に整えるなど、スケーリングを行うことが重要です。
データ数が少ないと結果が不安定になる
サンプルが少ない場合、どの変数が残るかがデータのわずかな違いで変わることがあります。
その場合は、L1とL2の両方を組み合わせた「Elastic Net」を使うと安定性が増します。

Elastic Netは、Lasso（L1正則化）とRidge（L2正則化）の中間的な手法です。

Lassoのように特徴選択を行いながら、Ridgeのように強く相関する変数をうまく扱えるのが特徴です。

実務では、特徴量が多くかつ相関関係も複雑なデータ（マーケティング指標や広告ログなど）で、このElastic Netが最も安定した成果を出すことが多いです。