機械学習とは何か
機械学習は、データの中にあるパターンや傾向を自動的に見つけ、予測や分類を行う技術です。
重大なのは、人間が「こういう条件ならこう判断しなさい」と細かいルールを書かなくても、データからルールを自動で作り上げる点にあります。
教師あり学習
「正解が付いているデータ」を使って学習する方法で、最も活用範囲が広い領域です。
- 入力:年齢・行動履歴など
- 正解:クリックした/しなかった、購入した/しなかった
教師なし学習
「正解のないデータ」の中から構造やパターンを発見する学習方法です。
- 顧客を似た特徴ごとにグループに分ける
- 不自然なデータ(異常値)を見つける
- テキストの話題を自動的に抽出する
といった用途に使われ、データ理解の第一歩としても有効です。
強化学習
「行動する → 結果が返ってくる(報酬) → その経験をもとに学ぶ」という仕組みで賢くなる手法です。
ゲームAIやロボット操作で有名ですが、マーケティングでも
- 最適な広告表示順
- 動的な価格調整
- パーソナライズ施策の最適化
などに応用されています。
▼ モデル(アルゴリズム)とその特徴
線形回帰
入力データの影響を足し合わせて予測を行う、最も基本的なモデルです。
売上予測やLTV予測など、数値を予測するタスクで使われます。
ロジスティック回帰
「0か1か」を予測する分類モデルの代表格です。
特徴的なのは、結果を「確率」として出せる点で、CV確率の推定などに非常に適しています。
決定木
データを「条件の分岐」で分類していくモデルです。
- 年齢が30歳より上ならA
- さらに購入回数が3回以上ならB
といった具合に、判断の道筋がそのまま可視化されるため、ビジネス担当にも理解しやすいのが魅力です。
ランダムフォレスト
多数の決定木を組み合わせて高い精度を出す方法です。
1本の決定木よりも過学習を防ぎやすく、特徴量の重要度も把握しやすいため、実務でもよく採用されます。
ニューラルネットワーク
人間の脳の仕組みをヒントに作られたモデルで、データを「段階的に変換しながら理解していく」のが特徴です。
大量のデータがあるほど性能が伸びることが多く、画像・音声・テキストなど幅広いジャンルに使われています。
ディープラーニング
「層を重ねたニューラルネットワーク」を使う学習方法で、複雑な情報を扱うのが得意です。
- 画像の自動認識
- 翻訳
- 音声認識
- 大規模言語モデル(LLM)
など、近年のAIを支えている技術そのものです。
データまわりの用語
特徴量
モデルに入力する情報のこと。
顧客の属性・行動履歴・購買履歴などがそのまま「特徴量」として扱われます。
ラベル
予測したい対象の値のこと。
たとえば「クリックしたかどうか」や「購入金額」などが該当します。
学習データ / 検証データ / テストデータ
機械学習では、1つのデータセットを役割ごとに分けて使います。
- 学習データ:モデルを育てるために使う
- 検証データ:パラメータの調整に使う
- テストデータ:最終的な性能チェックに使う
特にテストデータは「完全に最後の確認用」として扱い、生の学習には触れさせないのがポイントです。
過学習
「学習データにはやたら強いのに、新しいデータに弱い」状態です。
ほんの些細なノイズまで覚えてしまうことで起きます。
対策としては、
- 使う特徴量を整理する
- モデルを複雑にしすぎない
- 学習途中で打ち切る
- 正則化(複雑さにペナルティを与える方法)を使う
などが挙げられます。
評価指標に関する用語
正解率(Accuracy)
全体の中でどれだけ正しく予測できたかを示すシンプルな指標です。
ただし「0が99%・1が1%しかない」ような偏ったデータでは参考にならないことがあります。
適合率(Precision)
「予測してポジティブと判断した中に、本物のポジティブがどれだけ入っていたか」を示します。
誤検知を減らしたい場面で重視されます。
再現率(Recall)
「本物のポジティブをどれだけ取りこぼさずに予測できたか」を示します。
見逃しが致命的な場面で重要視されます。
F1スコア
適合率と再現率のバランスを見るための指標です。
片方だけが極端に高くても良いモデルとは言えないため、その調和を測ります。
AUC(ROC-AUC)
しきい値によらずモデルの識別能力を評価できる指標です。
クラスの偏りがある問題でも比較的安定して性能を測定できるため、二値分類ではよく使われます。
実務でよく登場する周辺概念
ハイパーパラメータ
モデルの外側から設定するパラメータのこと。
学習率、決定木の深さ、正則化の強さなどが該当し、モデルの精度を左右する重要要素です。
バッチ学習 / オンライン学習
- バッチ学習:まとまったデータを一括で学習する方法
- オンライン学習:データが次々に入ってくる前提で、随時学習を続ける方法
広告配信のようなリアルタイム性のある領域では、オンライン学習が適性を発揮します。
次元削減
特徴量が多すぎると性能が落ちたり解釈が難しくなるため、「情報を圧縮して扱いやすくする」技術です。
顧客データの俯瞰などにも使えます。
アンサンブル学習
複数のモデルを組み合わせて精度を高める方法です。
1つのモデルに依存しないため安定性が高く、実務でも幅広く使われています。
LLM や生成AIまわりの用語
トークン
AIが文章を処理する際の最小単位です。
日本語だと1文字前後、英語だと単語の一部分などに分かれます。
埋め込みベクトル(Embedding)
文章や画像を「意味を表す数値」に変換したものです。
文章同士の類似度計算や、レコメンドの基盤にも使われる重要技術です。
ファインチューニング
既存のモデルに追加の学習を行い、特定用途向けに性能を最適化する方法です。
商品説明文生成、業界特化の専門用語対応など、多用途に活躍します。
以上、機械学習に関する用語についてでした。
最後までお読みいただき、ありがとうございました。
