生成 AI の用語集
この用語集では、生成 AI の用語を定義します。
AI エージェント
AI エージェントは、入力を処理し、利用可能なツールで推論を行い、決定に基づいてアクションを実行することで目標を達成するアプリケーションです。AI エージェントは関数呼び出しを使用して入力をフォーマットし、外部ツールとの正確なやり取りを確実にします。次の図は、AI エージェントのコンポーネントを示しています。
上の図に示すように、AI エージェントは次のコンポーネントで構成されています。
- オーケストレーション: エージェントのオーケストレーション レイヤは、プラン、ツールの使用、データフローを制御することで、メモリ、状態、意思決定を管理します。オーケストレーションには、次のコンポーネントが含まれます。
- プロフィールと���順: エージェントは、特定の役割またはペルソナを担って、行動と意思決定を導きます。
- メモリ: コンテキストと状態を維持するために、エージェントは短期記憶と長期記憶を保持します。短期記憶は、現在のタスクに必要な即時のコンテキストと情報を保持します。長期記憶には、会話の履歴全体が保持されます。
- 推論と計画: エージェントはモデルを使用してタスクの分解と反射を行い、プランを作成します。まず、エージェントはユーザー プロンプトをサブコンポーネントに分割し、1 つ以上の関数を呼び出して複雑なタスクを処理します。次に、エージェントは推論とフィードバックを使用して関数出力を反映し、レスポンスを改善します。
- モデル: 目標を処理し、プランを作成し、レスポンスを生成する生成言語モデル。最適なパフォーマンスを得るには、モデルが関数呼び出しをサポートし、ツールまたは推論ステップのデータシグネチャでトレーニングされている必要があります。
- ツール: データを取得し、アクションやトランザクションを実行する API、サービス、関数などのツールのコレクション。ツールを使用すると、エージェントは外部データやサービスとやり取りできます。
自律的な意思決定、複雑なマルチステップ ワークフロー管理、適応型エクスペリエンスを必要とするアプリケーションでは、AI エージェントは標準基盤モデルよりも優れたパフォーマンスを発揮します。エージェントは、外部データを使用してリアルタイムで問題を解決し、知識集約型のタスクを自動化することに長けています。これらの機能により、エージェントは基盤モデルの受動的なテキスト生成機能よりも堅牢な結果を提供できます。
AI エージェントの詳細については、AI エージェントとはをご覧ください。
コンテキスト ウィンドウ
コンテキスト ウィンドウとは、基盤モデルが特定のプロンプトで処理できるトークンの数です。コンテキスト ウィンドウが大きいほど、モデルはより多くの情報にアクセスして処理できるため、より一貫性があり、関連性があり、包括的な回答が得られます。
Gemini モデルは、このような大量の情報を処理するために、長いコンテキスト ウィンドウを備えた専用モデルです。規模感を把握するために、100 万トークンのコンテキスト ウィンドウを持つモデルは、次のいずれかの入力を処理できます。
- 50,000 行のコード(1 行あたり 80 ��字として)
- 過去 5 年間に送信したすべてのテキスト メッセージ
- 平均的な長さの英語の小説 8 冊分
- 平均的な長さのポッドキャスト エピソードの文字起こしが 200 件以上
- 音声なしの動画 1 時間
- 音声付きの動画(約 45 分)
- 9.5 時間の音声
長いコンテキスト プロンプトのベスト プラクティスの詳細については、長いコンテキストをご覧ください。
エンベディング
エンベディングは、テキスト、画像、動画などのデータを数値で表現したもので、さまざまな入力間の関係を捉えます。エンベディングは、モデルのトレーニング フェーズで、テキスト、画像、動画をベクトルと呼ばれる浮動小数点数の配列に変換することで生成されます。エンベディングでは多くの場合、データの次元を減らすことで、計算効率を高め、大規模なデータセットの処理を可能にします。この次元の削減は、複雑なモデルのトレーニングとデプロイに不可欠です。
機械学習(ML)モデルでは、データを処理可能な形式で表現する必要があります。エンベディングは、データを連続ベクトル空間にマッピングすることで、この要件を満たします。この空間では、近接度が類似した意味を持つデータポイントを反映します。エンベディングを使用すると、モデルは元のデータでは不明瞭な微妙なパターンや関係を識別できます。
たとえば、大規模言語モデル(LLM)は、エンベディングを使用してテキストのコンテキストと意味を理解します。この理解により、LLM は一貫性があり関連性の高���回答������成できます。画像生成で��、���ンベディング���よって画像の視覚的特徴がキャプチャされ、モデルがリアルで多様な出力を作成できるようになります。
検索拡張生成(RAG)を使用するシステムは、エンベディングを使用してユーザーのクエリを関連する知識と照合します。クエリが送信されると、エンベディングに変換され、ナレッジベース内のドキュメントのエンベディングと比較されます。この比較は、ベクトル空間での類似検索によって容易になり、システムは意味的に最も関連性の高い情報を取得できます。
エンベディング モデルとユースケースの詳細については、エンベディング API の概要をご覧ください。
基盤モデル
基盤モデルは、大量のデータでトレーニングされた大規模で強力なモデルです。多くの場合、テキスト、画像、動画、音声など、複数のモダリティにまたがっています。これらのモデルは、統計モデリングを使用してプロンプトに対する可能性の高いレスポンスを予測し、新しいコンテンツを生成します。テキスト生成の言語パターンや画像生成の拡散手法など、トレーニング データからパターンを学習します。
Google は、マネージド API を介してアクセスできるさまざまな生成 AI 基盤モデルを提供しています。 Google Cloudで利用可能な基盤モデルにアクセスするには、Vertex AI Model Garden を使用します。
関数呼び出し
関数呼び出しは、大規模言語モデル(LLM)を API や関数などの外部ツールに接続して LLM のレスポンスを強化する機能です。この機能により、LLM は静的な知識を超えて、データベース、顧客管理システム、ドキュメント リポジトリなどのリアルタイムの情報やサービスを使用してレスポンスを強化できます。
関数呼び出しを使用するには、モデルに関数のセットを指定します。その後、モデルにプロンプトを送信すると、モデルはリクエストに基づいて関数を選択して呼び出します。モデルはプロンプトを分析し、呼び出す関数とパラメータ値を指定する構造化データを生成します。構造化データ出力は関数を呼び出し、結果をモデルに返します。モデルは結果を推論に組み込んでレスポンスを生成します。このプロセスにより、モデルは内部知識を超える情報にアクセスして利用できるようになります。これ���より、モデルは外部データや処理を必要とするタスクを実行できるようになります。
関数呼び出しは、AI エージェントのアーキテクチャの重要な要素です。関数呼び出しにより、モデルが使用するツールと入力の形式を指定する構造化された方法が提供されます。これにより、外部システムとの正確なやり取りが保証されます。
Gemini の関数呼び出しの詳細については、関数呼び出しの概要をご覧ください。
生成 AI
生成 AI は、分類と予測に重点を置く従来の AI を超える AI の一種です。従来の AI モデルは、既存のデータから学習し、過去のパターンに基づいて情報を分類することや、将来の結果を予測することに優れています。生成 AI は、基盤モデルを使用して、テキスト、画像、音声、動画などの新しいコンテンツを生成します。この新しいコンテンツは、トレーニング データの基盤となるパターンとスタイルを学習することで生成されます。これにより、モデルはトレーニングに使用したデータに似た出力を効果的に作成できます。
生成 AI を使用するタイミングと生成 AI のビジネス ユースケースの詳細を確認する。
grounding
グラウンディングとは、モデルの出力を検証可能な情報源に紐付けるプロセスです。これらのソースには、会社の内部ドキュメント、プロジェクト固有のデータ、コミュニケーション レコードなど、コンテキストに固有の実用的な情報が含まれている場合があります。グラウンディングは、モデルに特定のデータソースへのアクセス権を付与することで、AI 出力の精度、信頼性、有用性を向上させます。グラウンディングにより、ハルシネーション(モデルが事実に基づいていないコンテンツを生成すること)の可能性が低くなります。一般的なグラウンディングのタイプは、検索拡張生成(RAG)です。これは、関連する外部情報を取得してモデルのレスポンスを強化するものです。
Google 検索によるグラウンディングの詳細については、グラウンディングの概要をご覧ください。
大規模言語モデル(LLM)
大規模言語モデル(LLM)は、膨大な量のデータでトレーニングされたテキスト主導の基盤モデルです。LLM は、テキスト生成、機械翻訳、テキスト要約、質問応答などの自然言語処理(NLP)タスクの実行に使用されます。LLM という用語は、基盤モデルと同一の意味で使用されることがあります。ただし、LLM はテキストベースであるのに対し、基盤モデルはテキスト、画像、音声、動画など、複数のモダリティでトレーニングでき、複数のモダリティから入力を受けることができます。
LLM は、言語内のパターンと関係を学習するために、強化学習や命令のファインチュ��ニングなどの手法を使用します。プロンプトを設計する際は、モデルのレスポンスに影響を与えるさまざまな要因を考慮することが重要です。
latency
レイテンシとは、モデルが入力プロンプトを処理してレスポンスを生成するまでにかかる時間です。モデルのレイテンシを調べる際は、次の点を考慮してください。
- 最初のトークンまでの時間(TTFT): モデルがプロンプトを受け取ってからレスポンスの最初のトークンを生成するまでにかかる時間。TTFT は、即時のフィードバックが必要なストリーミング アプリケーションで重要です。
- 最後のトークンまでの時間(TTLT): モデルがプロンプトを処理して完全なレスポンスを生成するまでにかかる合計時間。
レイテンシの短縮については、大規模言語モデル(LLM)のベスト プラクティスをご覧ください。
プロンプト エンジニアリング
プロンプト エンジニアリングは、プロンプトを作成し、モデルのレスポンスにアクセスして目的のレスポンスを取得する反復プロセスです。適切に構造化されたプロンプトを作成することは、言語モデルからの正確で高品質な回答を実現するために欠かせない要素です。
レスポンスの改善に使用できる一般的な手法は次のとおりです。
- ゼロショット プロンプト: 例なしでプロンプトを指定し、モデルの事前知識に依存します。
- ワンショット プロンプト: プロンプトに 1 つの例を指定して、モデルのレスポンスをガイドします。
- 少数ショット プロンプト: プロンプトに複数の例を指定して、目的のパターンまたはタスクを示します。
モデルに例を指定すると、形式、表現、範囲、全体的なパターンなど、モデルのレスポンスのさまざまな要素を制御できます。効果的な少数ショット プロンプトでは、明確な指示と具体的で多様な例を組み合わせます。最適なサンプル数を決定するためにテストすることが重要です。サンプル数が少すぎると十分なガイダンスが得られませんが、サンプルが多すぎると、モデルがサンプルに過学習し、一般化がうまくいかなくなる可能性があります。
プロンプトのベスト プラクティスの詳細については、プロンプト戦略の概要をご覧ください。
プロンプト
プロンプトとは、レスポンスを引き出すために生成 AI モデルに送信される自然言語リクエストです。モデルによっては、プロンプトにテキスト、画像、動画、音声、ドキュメントなどのモダリティだけでなく、複数のモダリティ(マルチモーダル)を含めることができます。
効果的なプロンプトは、コンテンツと構造で構成されます。コンテンツには、指示、例、コンテキストなど、関連するすべてのタスク情報が含まれています。構造により、順序付け、ラベル付け、区切り文字など、整理された効率的な解析が保証されます。必要な出力に応じて、追加のコンポーネントを検討してください。
モデル パラメータ
モデル パラメータは、モデルが入力データを処理する方法と出力を生成する方法の決定に使用する内部変数です。トレーニング中に、重みやバイアスなどのモデル パラメータを調整して、モデルのパフォーマンスを最適化できます。推論中は、さまざまなプロンプト パラメータを使用してモデルの出力に影響を与えることができます。これは、学習済みモデルのパラメータを直接変更するものではありません。
Vertex AI の Gemini API でコンテンツ生成に影響するプロンプト パラメータの例を次に示します。
temperature
: temperature は、レスポンス生成時のトークン選択のランダム性を変更します。これは、出力の創造性と予測可能性に影響します。temperature
の値の範囲は0
~1
です。温度が低い(0
に近い)ほど、より確定的で予測可能な結果が生成されます。温度が高いほど(1
に近いほど)、より多様で創造的なテキストが生成されますが、結果の整合性が低くなる可能性があります。topP
: Top-P は、モデルが出力用にトークンをサンプリングして選択する方法を変更します。Top-P は、累積確率がしきい値(p
)を超える最小のトークンセットを選択し、その分布からサンプリングします。topP
の値の範囲は0
~1
です。たとえば、トークン A、B、C の確率が 0.3、0.2、0.1 で、topP
値が0.5
だとします。このとき、モデルは次のトークンとして A か B を温度を使って選択し、C は候補から外します。topK
: Top-K は、モデルが出力用にトークンをサンプリングして選択する方法を変更します。Top-K は、回答を生成するために統計的に最も可能性が高いトークンを選択します。topK
の値は、1
~40
のトークン数を表します。モデルは、レスポンスの生成前にこのトークンから選択します。たとえば、トークン A、B、C、D の確率が 0.6、0.5、0.2、0.1 で、Top-K 値が3
だとします。このとき、モデルは次のトークンとして A、B、C のいずれかを Temperature を使って選択し、D は候補から外します。maxOutputTokens
:maxOutputTokens
設定により、レスポンスで生成できるトークンの最大数を変更します。値が小さいほどレスポンスが短くなり、値が大きいほどレスポンスが長くなる可能性があります。
Vertex AI の Gemini API のサンプリング パラメータの詳細については、コンテンツ生成パラメータをご覧ください。
検索拡張生成(RAG)
検索拡張生成(RAG)は、モデルのトレーニング後に取得されたナレッジソースを使用してグラウンディングすることで、大規模言語モデル(LLM)の出力の品質と精度を向上させる手法です。RAG は、事実の不正確さ、最新情報や専門情報へのアクセスの欠如、ソースの引用ができないなどの LLM の制限に対処します。RAG は、信頼できるナレッジベースやドキュメントから取得した情報(モデルでトレーニングされていないデータ、専有データ、機密性の高いユーザー固有のデータなど)へのアクセスを提供することで、LLM がより信頼性���高く、コンテキストに沿った回答を生成できるようにします。
RAG を使用するモデルがプロンプトを受け取ると、RAG プロセスは次のステージを完了します。
- 取得: プロンプトに関連するデータを検索します。
- 拡張: 取得したデータをプロンプトに追加します。
- 生成:
- 拡張プロンプトに基づいて要約またはレスポンスを作成するように LLM に指示します。
- レスポンスを返します。
Vertex AI と RAG の詳細については、Vertex AI RAG Engine の概要をご覧ください。
トークン
トークンは、基盤モデルが処理するデータの基本単位です。モデルは、プロンプト内のデータをトークンに分割して処理します。モデルで使用されるすべてのトークンのセットを語彙と呼びます。トークンは、z
などの単一の文字、cat
などの単語全体、または長い単語の一部にすることができます。
トークン化ツールは、複雑な専門用語、複合語、句読点や特殊文字を含む単語など、長い単語を複数のトークンに分割します。テキストをトークンに分割するプロセスをトークン化と呼びます。トークン化の目的は、元の単語を理解するために再結合できる意味論的意味を持つトークンを作成することです。たとえば、「predefined」という単語は、「pre」、「define」、「ed」というトークンに分割できます。
トークンは、画像、動画、音声などのマルチモーダル入力を表すことができます。エンベディング手法は、マルチモーダル入力を数値表現に変換し、モデルがトークンとして処理できるようにします。ディスプレイやファイルサイズに関係なく、マルチモーダル入力の例のトークンの概算計算は次のとおりです。
- 画像: 合計 258 トークン
- 動画: 1 秒あたり 263 トークン
- オーディオ: 1 秒あたり 32 トークン
各モデルには、プロンプトとレスポンスで処理できるトークンの上限があります。また、モデルの使用料金は、入力トークンと出力トークンの数に基づいて計算されます。Gemini モデルに送信されたプロンプトのトークン数を取得する方法については、トークンの一覧表示とカウントをご覧ください。Vertex AI での生成 AI モデルの費用については、Vertex AI の料金をご覧ください。
調整
チューニングは、特定のタスクをより高い適合率と精度で実行するように基盤モデルを適応させるプロセスです。チューニングは、モデルのパラメータの一部またはすべてを調整するか、目的のタスクと結果を複製するサンプルを含むデータセットでモデルをトレーニングすることで行われます。チューニングは反復的なプロセスであり、複雑で費用もかかる場合がありますが、パフォーマンスを大幅に改善できる可能性があります。チューニングは、100 を超えるサンプルを含むラベル付きデータセットがあり、プロンプト手法では不十分な複雑なタスクや一意のタスクを実行する場合に最も効果的です。
Vertex AI でサポートされているチューニング手法は次のとおりです。
- フル ファインチューニング: チューニング プロセス中にモデルのすべてのパラメータを更新する手法。完全なファインチューニングは計算コストが高く、大量のデータが必要になる場合がありますが、特に複雑なタスクでは最高レベルのパフォーマンスを達成できる可能性があります。
- パラメータ効率チューニング: アダプター チューニングとも呼ばれる手法。パラメータ効率チューニングでは、チューニング プロセス中にモデルのパラメータの一部を更新します。パラメータ効率チューニングは、フル ファインチューニングよりもリソース効率と費用対効果に優れています。
- 教師ありファインチューニング: ラベル付きの入出力ペアでモデルをトレーニングする手法。教師ありファインチューニングは、分類、翻訳、要約などのタスクによく使用されます。
チューニングの詳細については、チューニングの概要をご覧ください。