生成AIに関する用語について

AI実装検定のご案内

生成AI(Generative AI)は、文章・画像・音声・動画・プログラムコードなどを新たに生成する能力を持つAI技術の総称です。

近年は、OpenAIが提供するChatGPTをはじめとした大規模モデルの登場により、ビジネスやクリエイティブ分野での実用が急速に進んでいます。

本記事では、生成AIを正しく理解するために必要な用語を、誤解が生じやすい点に注意しながら体系的に解説します。

目次

生成AIの基礎概念に関する用語

生成AI(Generative AI)

生成AIとは、学習したデータの分布をもとに、文章・画像・音声などの新しいデータを生成するAIを指します。

従来の機械学習では、

  • 分類
  • 回帰(数値予測)
  • 異常検知

といった判別・予測系タスクが中心でした。

一方、生成AIは「正解を当てる」のではなく、確率的にもっともらしい新規データを生成する点が大きな特徴です。

※「創造するAI」と表現されることもありますが、厳密には学習済みデータ分布からのサンプリングであり、人間の創造性とは異なります。

学習データ(Training Data)

AIモデルがパターンや構造を学ぶために使用するデータ群です。

生成AIでは、以下のような多様なデータが用いられます。

  • テキスト(Webページ、書籍、会話ログなど)
  • 画像・音声・動画
  • プログラムコード

学習データの量・質・偏りは、生成結果の精度やバイアスに直結します。

モデル(Model)

学習データをもとに構築された数理的構造そのものを指します。

生成AIでは、特に大規模なニューラルネットワークが使われることが多く、これを総称して「大規模モデル」と呼びます。

言語生成AI・LLM関連の重要用語

LLM(Large Language Model)

LLM(大規模言語モデル)とは、膨大なテキストデータを用いて学習された、自然言語処理に特化した生成モデルです。

特徴として、

  • 文脈理解
  • 要約・翻訳
  • 質問応答
  • 文章生成
  • コード生成

などを、単一のモデルで横断的に処理できます。

パラメータ(Parameters)

モデル内部に存在する学習によって調整される数値の集合です。

一般に、パラメータ数が多いほど表現力は高まる傾向がありますが、

  • 学習コスト
  • 推論コスト
  • 運用負荷

も同時に増大します。

性能はパラメータ数だけでなく、データ品質や学習手法にも大きく依存します。

トークン(Token)

生成AIがテキストを処理する際の内部的な処理単位です。

トークンは必ずしも単語とは一致せず、

  • 単語の一部
  • 文字
  • 記号

などが含まれます。入力・出力のトークン数は、処理コストや制限に直接影響します。

コンテキストウィンドウ(Context Window)

モデルが推論時に参照できる入力トークン量の上限を指します。

会話履歴や長文資料を一度に扱える量は、この上限によって制約されます。

※これは「長期記憶」ではなく、あくまでその場で参照できる情報量です。

生成結果の制御と品質に関する用語

プロンプト(Prompt)

生成AIに与える入力指示文のことです。

目的、条件、出力形式を明確に指定することで、結果の品質が大きく変わります。

プロンプトエンジニアリング

望む出力を得るために、プロンプトを設計・最適化する技術や考え方です。

  • 役割指定(例:「あなたはWebマーケターです」)
  • 手順分解
  • 制約条件の明示

などが代表的な手法です。

Temperature(温度)

生成結果のランダム性(多様性)を制御するパラメータです。

  • 低い値:安定的・保守的な出力
  • 高い値:多様で創造的だが、ブレやすい出力

用途に応じた調整が重要です。

ハルシネーション(Hallucination)

生成AIが、事実ではない内容を、あたかも正しいかのように生成してしまう現象を指します。

  • 架空の統計データ
  • 存在しない論文・制度
  • 誤った専門知識

などが代表例であり、生成AI利用時の大きなリスクの一つです。

画像・音声生成AIに関する用語

拡散モデル(Diffusion Model)

主に画像生成で使われる生成モデルの一種です。

ノイズを加える過程と、それを少しずつ除去する過程を学習し、高品質な画像を生成します。

近年のテキストから画像を生成するAIでは、広く採用されています。

マルチモーダル(Multimodal)

テキスト・画像・音声・動画など、複数の情報形式を横断的に扱えるAIを指します。

近年の生成AIは、マルチモーダル化が急速に進んでいます。

実務・ビジネスで重要な用語

ファインチューニング(Fine-tuning)

既存の学習済みモデルをベースに、特定用途向けの追加学習を行う手法です。

ただし実務では、

  • RAGで外部データを参照する
  • プロンプト設計で対応する

といった選択肢もあり、「自社データを使う=必ずファインチューニング」というわけではありません。

RAG(Retrieval-Augmented Generation)

外部データベースや文書を検索(Retrieval)し、その結果を入力として生成(Generation)を行う仕組みです。

  • 学習時点以降の情報に対応しやすい
  • 事実性を高めやすい

という利点がありますが、ハルシネーションを完全に防げるわけではありません

あくまで「低減に役立つ手法」と理解するのが正確です。

ガードレール(Guardrails)

不適切・危険・不正確な出力を防ぐための安全設計・制御ルールの総称です。

  • 出力制約
  • フィルタリング
  • 形式チェック

など、モデルの内外で実装されます。

以上、生成AIに関する用語についてでした。

最後までお読みいただき、ありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次