線形回帰は、機械学習の中でも最も基本的で、最も応用範囲が広い予測モデルの1つです。
モデル構造がシンプルで、予測の「理由」を説明しやすく、マーケティング・経済分析・需要予測など、幅広い業界で活用されています。
線形回帰とは何か?
線形回帰は、「特徴量と結果のあいだにまっすぐな関係(直線的な関係)がある」と仮定して予測を行う手法です。
具体的には、
- 広告費が増えると売上も増える
- 気温が上がるとアイスの売上も増える
- ECサイトのアクセス数が増えると成約数も増える
といった、「増えると増える」「減ると減る」というわかりやすい関係を、1本の線(または高次元の平面)で表現します。
モデルが学習するもの:予測値と実際の差を最小にする
線形回帰は、「予測した値」と「実際の値」のズレをできる限り小さくするようにモデルを調整するという考え方で学習します。
このズレ(誤差)は、
- 大きいズレほどペナルティを強く
- 小さいズレなら軽く
という考え方で評価されます。
モデルはこの誤差を小さくするように、「各特徴量がどれだけ結果に影響を与えるか(重み)」「結果の基準となる値(切片)」を学習します。
パラメータの求め方:2つのアプローチ
線形回帰の主な学習方法は次の2つです。
解析的に一発で計算する方法(最小二乗法)
これは、統計学で古くから使われている伝統的な方法です。
特徴量の行列を使い、最適な係数を「一度の計算」で求めるやり方で、小規模なデータでは非常に高速で精度も高い手法です。
ただし、
- 特徴量同士が重なりすぎている(完全に重複している)
- 特徴量が多すぎる
といった状況では計算が安定しないため、数値計算用の分解手法(SVDやQR分解)が使われます。
少しずつ最適値に近づく方法(勾配降下法)
こちらは機械学習・深層学習でよく使われる方法です。
イメージとしては、
「今の予測はどれだけズレていたか?」
「じゃあ、各係数をどちらの方向に、どれくらい動かせばズレが減るか?」
を繰り返し計算して、少しずつ最適解に近づけます。
線形回帰の誤差の形は、必ず1つだけ谷底(最良の答え)が存在するため、勾配降下法でも確実に「最適な」解に到達できます。
パフォーマンスを安定させる派生モデル(正則化)
特徴量が多い場合やノイズの多いデータでは、普通の線形回帰は不安定になることがあります。
そこで登場するのが「正則化(せいそくか)」です。
リッジ回帰(重みを小さく抑えて安定化)
リッジ回帰は、係数が大きくなりすぎないように「重さに罰則」を与える方法です。
- 大きな係数が発生しにくくなり、安定した予測ができる
- 特徴量が相互に似ている場合(共線性)に特に有効
モデルの暴走を抑える「安全装置」のようなイメージです。
ラッソ回帰(不要な特徴を自動でゼロに)
ラッソ回帰は、係数を「0」にする効果があります。
- 不要な特徴量を自動的に切り捨て
- モデルをスリム化
- どの特徴が重要なのか分かりやすい
線形回帰を使う際の前提条件
線形回帰にはいくつかの前提があります。
これらが守られるほど、モデルは安定して高い精度を発揮します。
- 説明したい関係が直線的であること
→ 非線形すぎる場合は別手法が必要 - 誤差が平均して0方向に散らばっていること
- 誤差が互いに影響しないこと(独立性)
- 誤差の散らばり方が均一であること(等分散性)
- 特徴量同士が完全に重なっていないこと(完全共線性がないこと)
モデルの良し悪しをどう測るか?
線形回帰の性能を評価するには、いくつかの指標を使います。
決定係数(R²)
- 予測がどれほどデータを説明できているかを測る指標
- 1に近いほど良く、0に近いほど悪い
- テストデータでは、場合によっては0より低くなることもある(基準モデル以下の性能という意味)
RMSE(予測の誤差の大きさ)
「予測のズレの平均的な大きさ」を、元のデータと同じ単位で表します。
ズレの感覚が直感的に理解しやすい指標。
MAE(ズレの絶対値の平均)
外れ値の影響が小さくなりやすい。
より「堅実」な評価がしたい時に使う指標です。
線形回帰が苦手なケースと代替モデル
線形回帰は万能ではありません。
以下に当てはまる場合は、別のモデルを検討するのが賢明です。
- 関係性が直線では説明しづらい場合
→ 決定木、ランダムフォレスト、XGBoost などが有効 - 外れ値が多い場合
→ ロバスト回帰やMAE重視の手法 - 特徴量が多すぎる、または似すぎている場合
→ リッジ回帰やPCAで安定化 - 分類をしたい場合
→ ロジスティック回帰やツリー系モデル
まとめ
線形回帰は、「シンプルで強力、そして解釈性が高い」という特徴を持つ、機械学習の基本モデルです。
- 予測精度
- 要因分析
- 関係性の理解
- 意思決定の根拠づくり
といった目的に適しており、「説明責任」と「改善施策」が求められる領域では非常に有用です。
以上、機械学習の線形回帰についてでした。
最後までお読みいただき、ありがとうございました。
