機械学習の次元削減について

2025年11月10日

次元削減（Dimension Reduction）は、多くの特徴量を持つデータをより少ない次元に圧縮し、情報をできるだけ保ちながら解析を効率化する技術です。

機械学習の前処理やデータ解析では欠かせないステップであり、高次元データを扱う際に特に重要です。

以下では、理論・手法・実務的な観点から詳しく説明します。

次元削減の目的と意義

高次元データには、しばしば「冗長な特徴」や「ノイズ成分」が含まれます。

そのまま機械学習モデルに入力すると、計算コストの増大・過学習・可視化の困難さなどの問題が発生します。

次元削減は、これらを解決するために以下の目的で用いられます。

次元削減は大きく分けて、線形手法と非線形手法の2種類があります。

主成分分析（PCA）は、最も代表的な線形次元削減法です。

データの分散が最大となる方向を見つけ出し、その方向にデータを射影して情報を圧縮します。

PCAは特徴抽出の一種であり、「不要な特徴を削除する」特徴選択（Feature Selection）とは異なります。

PCAは新たな軸（主成分）を作り出して次元を圧縮します。

t-SNEは、高次元空間での「点同士の類似性」を確率的に表し、それを低次元空間で再現する手法です。

局所的な構造（近い点同士の関係）をうまく保ち、クラスタ構造を視覚的に表現するのに適しています。

UMAPは、t-SNEと同様に非線形次元削減を行う手法で、より高速かつスケーラブルです。

多様体学（トポロジー）に基づいて局所構造を保ちつつ、グローバルな距離関係もある程度維持します。

オートエンコーダ（Autoencoder）は、ニューラルネットワークを使った非線形次元削減の代表例です。

入力データを圧縮する「エンコーダ」と再構成する「デコーダ」から成り、ボトルネック層で情報を圧縮します。

PCAは「分散最大化の原理」に基づき、データの分散を最大にする方向ベクトルを求めます。

第1主成分を求めた後は、それに直交する方向で分散が最大となる第2主成分を求めることで、順に次元を削減していきます。

t-SNEやUMAPでは、「距離」や「類似性」を確率分布や多様体上の構造として捉え、それを低次元空間で再現するよう最適化します。

つまり、PCAが直線的な射影に基づくのに対し、t-SNEやUMAPはデータの非線形構造を保持するように設計されています。

高次元データを圧縮し、計算負荷を軽減。

例として、1000次元のテキスト埋め込みを100次元に圧縮するなど。

t-SNEやUMAPを使って2次元に埋め込み、クラスタ構造や潜在的なパターンを視覚的に把握。

PCAの小さな固有値に対応する成分を削除することで、ノイズを除去しデータの構造を明確化。