特徴量(Feature)とは、現実世界のデータを機械学習モデルが理解できる形に変換した数値的な指標を指します。
画像、文章、音声、行動ログなど、人間ならそのまま扱える情報も、機械にとっては数値として表現されていなければ処理できません。
そのため、データのもつ意味を適切に切り出し、モデルが学習しやすい構造へ変換したものが特徴量になります。
特徴量は、モデルの種類や学習手法よりも性能に影響を与える場合が多く、「どの特徴をどう表現するか」は機械学習全体の中でも最重要工程のひとつです。
特徴量が果たす役割
特徴量は、単なる数値変換以上の役割を持っています。
データの意味を表現する
生データをモデルが処理できる形式へ落とし込む基本的な役割です。
例
- 画像のRGB値
- テキストをベクトル化した埋め込み
- 地名をカテゴリIDへ変換
本質的な情報を抽出する
単純な数値化ではなく、問題に関連する構造や傾向を捉えるための加工を施します。
例
- 日付を曜日や休日フラグに分解
- 履歴データから統計量(平均・頻度など)を生成
モデル性能を大きく左右する
特徴量が適切であれば、複雑なモデルに頼らなくとも高い精度が得られる場合があります。
逆に、不十分な特徴量ではどんなモデルを使っても精度が伸びません。
特徴量の代表的な種類
数値特徴量
温度、距離、価格、回数など、連続値・離散値をそのまま扱う形式。
スケーリングや外れ値処理が必要になることがあります。
カテゴリ特徴量
性別、地域、物の種類など、離散的クラスを持つ情報。
よく使われる表現方法
- One-Hot Encoding
- Label Encoding
- Target Encoding
- 埋め込みベクトル(Embedding)
テキスト特徴量
文章データを数値化したもの。
BoW、TF-IDF、Word2Vec などの古典手法に加え、近年は BERT のような深層学習モデルによる埋め込みが広く使われています。
画像特徴量
色・形状・パターンなどを数値化したもの。
CNN による特徴抽出が現在の主流です。
時系列特徴量
時系列データから抽出される統計量や傾向。
移動平均、変化率、周期性などが該当します。
派生特徴量(特徴量エンジニアリング)
既存の情報を組み合わせたり加工して新たに生成した特徴。
比率、差分、平方根、集約統計など、実務では最も性能向上に寄与しやすい要素です。
特徴量エンジニアリングの主要なプロセス
前処理
- 欠損値補完
- スケーリング
- 外れ値処理
モデルが安定的に学習するための基礎を作ります。
派生特徴量の生成
問題設定に合わせて意味のある情報へ再構成します。
例:履歴の平均、差分、比率、時間情報の分解など。
交互作用特徴の作成
複数の特徴を組み合わせて新たな関係性を捉える方法。
例:A × B、A ÷ B など。
次元削減
不要な特徴を減らすための手法。
PCA や Autoencoder が実務的で、t-SNE や UMAP は主に可視化目的に使われます。
特徴量選択の考え方
特徴が多すぎるとノイズや過学習の原因になるため、有効な特徴だけを選び取る工程も重要です。
Filter法
統計値(相関、χ²、情報利得)で評価。
Wrapper法
特徴の組み合わせを試し、モデル性能を直接比較する方法。
Embedded法
モデル自体が特徴量の重要度を内部で計算する方式。
Lasso(L1正則化)や決定木系モデル、XGBoost などが該当します。
特徴量の品質を判断する基準
- Feature Importance(モデルによる重要度)
- SHAP値
- 相関や多重共線性の確認
- 特徴の追加による性能指標(AUC、RMSE、Accuracy など)の改善度
これらを組み合わせて、特徴量が実際に価値を持つかどうかを評価します。
特徴量設計が特に重要となる場面
- データ量が限られている
- 時系列や複雑な履歴データを扱う
- モデルが構造化データを処理する(例:XGBoost、LightGBM)
- 問題に固有の知識を反映する必要がある
深層学習は特徴抽出を自動化する能力がありますが、前処理や構造化の工程は依然として省略できません。
表現学習(Representation Learning)という考え方
CNN や Transformer のようなモデルは、入力データから特徴量を自動抽出する機能を備えています。
テキストの意味を表現する埋め込みや、画像の特徴マップなどがその例です。
これは「特徴量設計の一部がモデル内部に組み込まれた状態」と言えます。
まとめ
特徴量は、機械学習モデルが学習するうえで最も重要な要素のひとつです。
適切に設計された特徴量は、データの構造を明確にし、モデルの性能を高め、誤差を減らす役割を果たします。
特徴量エンジニアリングは、モデル選択と同程度、あるいはそれ以上に結果を左右する工程であり、機械学習プロジェクト全体の質を大きく左右します。
以上、機械学習の特徴量についてでした。
最後までお読みいただき、ありがとうございました。
