強化学習のアルゴリズムの一覧について

2025年12月13日

強化学習（Reinforcement Learning, RL）のアルゴリズムは非常に多く、分類の仕方を誤ると「何がどう違うのか」が分からなくなる分野です。

そのため本稿では、

強化学習アルゴリズムを分類するための軸
各カテゴリごとの代表的アルゴリズム
それぞれの前提条件・得意領域・注意点

を明確にしながら整理します。

強化学習アルゴリズムを整理するための基本軸

まず、以下の軸を明確にすると混乱が減ります。

モデルベース / モデルフリー
価値ベース / 方策ベース / アクター・クリティック
オンポリシー / オフポリシー
離散行動 / 連続行動
表形式 / 関数近似（ニューラルネット）

強化学習のアルゴリズムは、これらの組み合わせで位置づけられます。

計画法（モデル既知・古典的手法）

概要

環境の 状態遷移確率・報酬関数が既知
全状態を列挙できることが前提
「学習」というより 最適方策を解くための計画（Planning）

代表例

Policy Iteration
Value Iteration

注意点

これらは強化学習の理論的基礎として極めて重要ですが、
実環境で試行錯誤しながら学習するアルゴリズムとは前提が異なるため、
厳密には「学習アルゴリズム」というより「最適化手法」に近い位置づけです。

TD学習・表形式の制御アルゴリズム（モデルフリー）

概要

環境モデルを仮定しない
状態・行動価値を直接更新
多くの深層強化学習アルゴリズムの理論的土台

代表的アルゴリズム

SARSA（オンポリシー）
Q-learning（オフポリシー）
Expected SARSA

補足

SARSAは「実際に使っている方策」に従って更新するためオンポリシー
Q-learningは「最適行動」を仮定して更新するためオフポリシー
Expected SARSAは
どの方策で期待値を取るか
どの方策でデータを収集するか
によって性質が変わるため、単純にオン/オフと断定しない方が正確

価値ベース強化学習（Value-Based Methods）

基本思想

「この状態でこの行動を取ると、将来どれだけ報酬が得られるか」
Q関数を学習し、最大値を取る行動を選択
方策は価値関数から間接的に決まる

深層強化学習の代表

DQN（Deep Q-Network）
Double DQN
Dueling DQN
Prioritized Experience Replay
n-step DQN
Distributional DQN
Rainbow DQN（複数改良の統合）

特徴

離散行動に強い
実装は比較的分かりやすい
連続行動空間では扱いにくい（離散化が必要）

方策ベース強化学習（Policy-Based Methods）

基本思想

方策（π）そのものを直接最適化
確率的ポリシーを扱える

代表的アルゴリズム

REINFORCE
Policy Gradient
TRPO
PPO（Proximal Policy Optimization）

特徴

連続行動を自然に扱える
方策が安定しやすい
サンプル効率が低くなりやすい
PPOは現在でも研究・実務で非常に広く使われるオンポリシー手法

アクター・クリティック（Actor-Critic）

基本思想

Actor：行動を決定する（方策）
Critic：その行動の価値を評価
価値ベースと方策ベースの折衷

代表的アルゴリズム

オンポリシー系

A2C
A3C

オフポリシー系（連続制御の主流）

DDPG
TD3
SAC（Soft Actor-Critic）

特徴

高性能・高安定
実装はやや複雑
連続制御問題では事実上の主流カテゴリ

モデルベース強化学習（Model-Based RL）

概要

状態遷移モデルや報酬モデルを利用
サンプル効率が高いのが最大の利点

分類すると理解しやすい

(A) モデル既知で計画

Value Iteration
Policy Iteration

(B) モデルを学習して利用

Dyna-Q
MBPO（Model-Based Policy Optimization）
Dreamer 系

(C) 生成器を使った探索

MCTS（Monte Carlo Tree Search）

注意点

モデル誤差が性能劣化に直結する
高次元環境では設計が難しい

オンポリシーとオフポリシーの整理

区分	特徴	代表例
オンポリシー	現在の方策で集めたデータのみ使用	SARSA, PPO, A2C
オフポリシー	過去データや別方策のデータも利用	Q-learning, DQN, DDPG, TD3, SAC

※ 「オフポリシーが常に優れている」というわけではなく、
安定性・理論保証・用途によってオンポリシーが選ばれる場面も多く存在します。

代表アルゴリズムの用途別整理

アルゴリズム	行動空間	特徴	主な用途
Q-learning	離散	理論の基礎	学習・教材
DQN	離散	Deep RL入門	ゲーム
PPO	離散/連続	安定・汎用	ロボ・シミュレーション
DDPG	連続	高性能だが不安定	制御
TD3	連続	DDPG改良	連続制御
SAC	連続中心	安定・高性能	実務・研究