機械学習は、目的に応じてさまざまなアルゴリズムが存在し、それらを理解するには「どのような学習形式か」「どのようなデータ構造を扱うか」を軸に分類するのが最も効率的です。
ここでは、機械学習のアルゴリズムを大分類から個別手法まで、体系的に整理して詳しく解説します。
機械学習アルゴリズムの大分類
機械学習の手法は、大きく次の 3 種類に分けられます。
教師あり学習(Supervised Learning)
- 入力(特徴量)と正解(ラベル)が与えられたデータで学習する手法
- 目的:数値予測・分類
教師なし学習(Unsupervised Learning)
- 正解ラベルが存在しないデータから構造やパターンを発見する手法
- 目的:クラスタリング・次元削減・異常検知
強化学習(Reinforcement Learning)
- エージェントが環境と相互作用しながら試行錯誤し、報酬を最大化する行動戦略を学習する手法
- 目的:最適行動の探索・制御
教師あり学習(Supervised Learning)のアルゴリズム
教師あり学習は「回帰(数値予測)」と「分類(クラス予測)」に分かれます。
回帰(Regression)
線形回帰(Linear Regression)
最も基本的な回帰モデルで、入力と出力の線形関係を仮定します。
特徴
- シンプルで高速
- モデルの解釈性が高い
- 非線形関係には不向き
リッジ回帰(Ridge Regression) / ラッソ回帰(Lasso Regression)
線形回帰に正則化を導入したモデル。
- リッジ(L2正則化):重みを均等に縮める
- ラッソ(L1正則化):不要な特徴量をゼロにして特徴選択が可能
決定木回帰(Decision Tree Regression)
特徴量を閾値で分岐させながら予測を行う。
特徴
- 非線形関係を表現できる
- 分岐構造が理解しやすい
- 過学習しやすい
ランダムフォレスト(Random Forest)
多数の決定木をアンサンブルして性能を高める手法。
特徴
- 単一の決定木より過学習しにくい
- 高精度
- 特徴量の重要度評価が可能
勾配ブースティング(Gradient Boosting)
弱い決定木を段階的に積み上げて精度を向上させる手法。
代表例:
- XGBoost
- LightGBM
- CatBoost
特徴
- 表形式データにおいて非常に高い性能
- ハイパーパラメータ次第で過学習リスクもある
SVR(Support Vector Regression)
SVMの仕組みを回帰に応用した手法。
特徴
- 高次元データに強い
- 非線形カーネルを利用可能
分類(Classification)
ロジスティック回帰(Logistic Regression)
入力に対しクラスの確率を出力する基本的な分類モデル。
Naive Bayes
特徴量が条件付き独立であるという仮定に基づく確率モデル。
特徴
- 計算が高速
- 特定の条件では非常に高い性能
- 独立性の仮定が崩れると性能低下
k近傍法(k-NN)
近いデータ点のラベルを参照して分類を行うシンプルな手法。
特徴
- 学習が不要
- 大規模データでは計算負荷が高い
決定木分類 / ランダムフォレスト分類 / ブースティング分類
回帰と同様に、分類タスクでも高い性能を発揮します。
サポートベクターマシン(SVM)
最適な超平面でデータを分割する手法。
特徴
- 高次元データでも安定した性能
- カーネルトリックにより非線形分類が可能
ニューラルネットワーク(MLP)
多層構造を持つモデルで、複雑な非線形関係を学習可能。
教師なし学習(Unsupervised Learning)のアルゴリズム
クラスタリング(Clustering)
k-means
代表的なクラスタリング手法で、クラスタ中心に基づいてデータを分割。
階層的クラスタリング(Hierarchical Clustering)
データの階層構造をツリー(デンドログラム)で表現。
DBSCAN
密度に基づくクラスタリング手法。
特徴
- ノイズに強い
- 任意形状のクラスタを検出できる
次元削減(Dimensionality Reduction)
PCA(主成分分析)
データの分散を最も多く保持する方向に射影して次元を削減。
t-SNE
高次元データを低次元に可視化する手法。
特徴
- 非線形構造の可視化に強い
- 主に可視化目的
UMAP
t-SNEより高速かつ構造保持に優れた次元削減手法。
異常検知(Anomaly Detection)
Isolation Forest
ランダムに木を構築し、異常点を孤立しやすさで判定する。
One-Class SVM
正常データの境界を学習し、それから外れる点を異常と判定する。
強化学習(Reinforcement Learning)のアルゴリズム
価値ベース(Value-based)
Q-learning
状態と行動の価値(Q値)を学習する基本手法。
方策ベース(Policy-based)
Policy Gradient
方策(行動確率分布)自体を最適化する手法。
ハイブリッド(Actor-Critic)
A2C / A3C / PPO
価値ベースと方策ベースの利点を組み合わせた手法で、安定性と学習効率が高い。
深層強化学習
DQN(Deep Q-Network)
深層学習を利用して価値関数を近似する強化学習手法。
生成モデル(Generative Models)のアルゴリズム
生成モデルはデータの背後にある分布を学習し、新たなデータを生成する手法です。
GAN(Generative Adversarial Network)
生成器と識別器が競い合いながら学習するモデル。
画像生成に強い。
VAE(Variational Autoencoder)
潜在空間を持ち、確率的生成が可能なモデル。
連続的な潜在空間が特徴。
Diffusion Models
ノイズを段階的に除去してデータを生成するモデル。
Stable Diffusionなどが代表例。
Transformer系モデル
自己注意機構(Self-Attention)を用いたアーキテクチャで、テキスト・画像など多分野で高性能。
代表例
- GPT
- BERT
- Vision Transformer(ViT)
まとめ:目的別のアルゴリズム選択の目安
| 目的 | 有力なアルゴリズム |
|---|---|
| 数値予測 | LightGBM / XGBoost / ランダムフォレスト |
| 分類 | ロジスティック回帰 / SVM / ブースティング |
| クラスタリング | k-means / 階層クラスタリング / DBSCAN |
| 次元削減 | PCA / UMAP / t-SNE |
| 異常検知 | Isolation Forest / One-Class SVM |
| 生成 | GAN / VAE / Diffusion Models / Transformer |
以上、機械学習のアルゴリズムの一覧についてでした。
最後までお読みいただき、ありがとうございました。
