機械学習の勾配法について

2025年11月8日

機械学習における勾配法とは

勾配法（こうばいほう、Gradient Method）とは、機械学習の学習プロセスで最も基本となる「最適化手法」の一つです。

モデルがどのように「正解に近づいていくか」を決める中核の仕組みであり、特にディープラーニングでは欠かせません。

簡単に言えば、勾配法は「損失関数（＝誤差）」をできるだけ小さくするために、パラメータ（重み）を少しずつ調整していく反復的な手続きです。

イメージとしては、「山の斜面を転がるボールが、谷底（＝最小誤差）を探して進む」ようなものです。

ボールが進む方向を決めるのが「勾配」、進むスピードを決めるのが「学習率」です。

勾配法の基本的な考え方

勾配（Gradient）とは、関数がどの方向にどのくらい変化するかを示す“傾き”のことです。

損失関数の勾配を計算し、その逆方向に進むことで、損失を少しずつ減らしていきます。

これを何度も繰り返すことで、誤差が最小になる点（最適なパラメータ）に近づきます。

主な勾配法の種類と特徴

バッチ勾配降下法（Batch Gradient Descent）

すべての学習データを一度に使って、損失の勾配を求めて更新します。

理論的には最も正確ですが、データ量が多いと計算コストが膨大になります。

そのため、実務ではあまり使われません。

確率的勾配降下法（Stochastic Gradient Descent, SGD）

データを1件ずつ処理し、逐次的にパラメータを更新していく方法です。

計算が速く、リアルタイムに近い更新が可能ですが、更新ごとの変動が大きく、損失が小刻みに上下しやすいという特徴があります。

現在では「SGD」という言葉が、次に紹介するミニバッチ版を指すことも多くなっています。

ミニバッチ勾配降下法（Mini-batch Gradient Descent）

SGDを改良した手法で、データを小さなグループ（ミニバッチ）に分け、その平均的な勾配で更新します。

これにより計算の安定性と効率が両立でき、現在の機械学習では最も一般的に使われています。

モーメンタム法（Momentum）

SGDでは勾配の向きが変わるたびに振動しやすいという欠点があります。

モーメンタム法は、前回までの更新方向を慣性のように引き継ぐことで、振動を抑え、滑らかに最小値へ進めるようにした手法です。

イメージとしては、「ボールが谷に沿ってスムーズに転がるようにする」調整です。

AdaGrad

学習率をパラメータごとに自動調整する仕組みを持つ手法です。

頻繁に変化するパラメータほど学習率を下げ、安定した学習を実現します。

ただし、更新を重ねるうちに学習率がどんどん小さくなり、途中で学習が止まってしまうこともあります。

RMSProp

AdaGradの弱点を改善した手法で、過去の勾配を「指数的な移動平均」で管理し、適度に古い情報を忘れるようにします。

これにより、学習率が極端に小さくなりすぎる問題を防ぎ、深層学習でも安定して動作します。

Adam（Adaptive Moment Estimation）

モーメンタム法とRMSPropの考え方を組み合わせたのがAdamです。

現在、ディープラーニングで最も広く使われる最適化アルゴリズムです。

勾配の平均と分散の両方を利用して、パラメータごとに動的に学習率を変化させるため、収束が速く、調整も容易です。

ただし、最終的なテスト精度（汎化性能）は、SGD＋モーメンタムの方が良い場合もあります。

勾配法が直面する主な課題

局所最小値・鞍点

ニューラルネットの損失関数は非常に複雑で、谷がいくつもあるような形をしています。

そのため、真の最小値ではない「局所的な谷」に入り込むことがあります。

これを避けるために、ランダムな初期化やモーメンタムが役立ちます。

学習率の調整

学習率が大きすぎると最小値を飛び越えてしまい、小さすぎると収束が遅くなります。

これを自動で調整するのが、RMSPropやAdamといった「適応的学習率」を持つ手法です。

勾配消失・勾配爆発

深いニューラルネットでは、層を通過するうちに勾配が極端に小さく（または大きく）なり、学習が進まなくなることがあります。

これに対しては、ReLUと呼ばれる活性化関数やBatch Normalizationといった手法が効果的です。

勾配法のイメージ理解

イメージとしては、ボールを山の斜面に置き、谷底へ転がしていくようなものです。

坂の傾きが急であれば一気に転がり、緩やかであればゆっくり進みます。

モーメンタムを使うと、ボールが慣性で谷底にスムーズに滑り込み、Adamのような手法では、ボールが自分で坂の状態を学びながら効率よく動くようになります。

主な手法の比較まとめ

手法	特徴	メリット	デメリット
SGD	最も基本的な手法	シンプルで速い	ノイズが多く不安定
Momentum	慣性を考慮	振動を抑えて安定	パラメータ調整が増える
AdaGrad	学習率を自動調整	初期学習が安定	学習率が下がりすぎる
RMSProp	AdaGradの改良版	深層学習に適して安定	ハイパーパラメータ調整が必要
Adam	Momentum＋RMSPropの融合	収束が速く安定	一部のタスクでは汎化性能が劣ることも