機械学習に求められるGPUメモリについて

2025年11月4日

GPUメモリ（VRAM）は、機械学習のパフォーマンスとスケーラビリティを決定づける最重要リソースの一つです。

モデルのサイズや精度、学習速度、取り扱えるデータ量は、GPUメモリの容量によって大きく左右されます。

本記事では、GPUメモリの役割から、用途別の必要容量、メモリ使用量を増減させる要因、そして実務的な最適化手法までを体系的に解説します。

GPUメモリの役割

GPUメモリは、モデル学習や推論に必要なデータを保持するための専用領域です。

学習時にVRAM上に展開される主な要素は次の通りです。

モデルパラメータ（Weights / Biases）
ネットワーク各層の重み・バイアス。モデルの核となる部分です。
アクティベーション（中間出力）
各層の出力を次層へ渡すためのテンソル。
バッチサイズやシーケンス長が大きいほど、メモリ消費が急増します。
勾配（Gradients）
逆伝播時に使用される勾配情報。重みと同程度の容量を占有します。
オプティマイザの内部状態（例：Adamのm, v）
勾配の履歴やモーメントを保持するデータ。
AdamやAdamWはSGDの約2倍のメモリを必要とします。
入力データ（バッチ）
ミニバッチ単位でロードされる画像・テキストなどの生データ。

推論時には「勾配」や「オプティマイザ状態」が不要となり、学習時よりも大幅にメモリを節約できます。

Stable Diffusion v1.5（512×512 / FP16 / batch1）
→ 6〜8GBで動作可能。拡張機能を使う場合は12GB以上が推奨。
LLaMA 7B（推論）
→ FP16で約14〜16GB、INT8で8〜10GB、4bit量子化なら5〜6GBで可動。

バッチサイズを2倍にすると、アクティベーションも2倍に増えるため、消費メモリもほぼ比例して増加します。

ただし、バッチを小さくしすぎると勾配が不安定になるため、Gradient Accumulationによる補正が効果的です。

モデルの規模が大きいほどVRAMを圧迫します。

例：ResNet-50（約25Mパラメータ）で約100MB、BERT-Large（約340M）で1.3GB以上。

NLPではトークン数が増えるとAttention機構の計算がO(n²)に拡大。

例えば512トークンを1024トークンにすると、メモリ使用量は単純倍増ではなく約4倍にもなります。

FP32 → FP16（またはbfloat16）へ切り替えることで、パラメータ・勾配の使用メモリをおよそ半減可能。

Ampere以降のGPUではTensor Coreにより計算速度も大幅向上。

AdamやAdamWは勾配の移動平均を保持するため、SGDと比較してパラメータあたり+2倍のメモリを消費します。

アクティベーションを再計算して保持を省くことで、メモリを節約。

ただし、計算時間は約20〜40%増加します。

モデル	入力	バッチサイズ	精度	消費VRAM（目安）
ResNet-50	224×224	32	FP32	約8GB
BERT-Base	512 tokens	16	FP32	約12GB
BERT-Large	512 tokens	8	FP16	約18GB
Stable Diffusion v1.5	512×512	1	FP16	約6〜10GB
LLaMA 7B（推論）	—	—	INT8	約8〜10GB（4bitで5〜6GB）

Mixed Precision Training（混合精度学習）
torch.cuda.ampやapexを利用してFP16で学習。
メモリを削減しつつ演算を高速化。
Gradient Checkpointing
アクティベーションを再計算で補い、VRAM使用量を大幅に削減。
Transformersではgradient_checkpointing=Trueで簡単に有効化可能。
オプティマイザの見直し
AdamWからSGDやAdafactorへ変更し、状態管理コストを軽減。
分散・並列学習（ZeRO / FSDP / Model Parallel）
大規模モデルを複数GPUで分割して管理。
特にDeepSpeed ZeROやFSDPは商用LLMで標準的。
量子化とLoRA/QLoRA
モデルを8bit・4bitに圧縮し、推論・微調整時のVRAMを大幅削減。
LoRA微調整と組み合わせれば6〜8GBクラスのGPUでもLLMを微調整可能。
入力解像度・トークン数の削減
画像・テキスト入力を適度に縮小するのが最も効果的な節約手法。

学習時のメモリ使用量はおおむね以下の式で見積もれます。

総VRAM ≈ (パラメータ × 4) + アクティベーション

重み：1倍
勾配：1倍
オプティマイザ状態（m, v）：2倍
→ 合計4倍が下限的見積もり（FP32基準）
FP16では重み・勾配部分が半減するため、全体では約0.6〜0.7倍程度になります。