生成式 AI 术语表
本术语表定义了生成式人工智能 (AI) 术语。
AI 智能体
AI 代理是一种应用,它通过处理输入、使用可用工具进行推理,并根据其决策采取行动来实现目标。AI 智能体使用函数调用来设置输入格式,并确保与外部工具进行精确的互动。下图显示了 AI 代理的组件:
如上图所示,AI 代理由以下组件组成:
- 编排:代理的编排层通过控制方案、工具使用情况和数据流来管理内存、状态和决策。编排包括以下组件:
- 个人资料和说明:智能体会扮演特定角色或角色,以指导其操作和决策。
- 记忆:为了维护上下文和状态,智能体会保留短期记忆和长期记忆。短期记忆用于存储当前任务所需的即时上下文和信息。长期记忆会保留完整的对话记录。
- 推理和规划:代理使用模型执行任务分解和反思,然后创建计划。首先,代理会将用户提示拆分为子组件,以便通过调用一个或多个函数来处理复杂任务。接下来,代理会通过推理和反馈来反思函数输出,以改进回答。
- 模型:处理目标、创建计划和生成回答的任何生成式语言模型。为了实现最佳性能,模型应支持函数调用,并且应使用工具或推理步骤中的数据签名进行训练。
- 工具:一组工具,包括用于提取数据和执行操作或交易的 API、服务或函数。借助工具,智能体可以与外部数据和服务进行交互。
对于需要自主决策、复杂的多步工作流程管理或自适应体验的应用,AI 代理的效果要优于标准基础模型。智能客服非常擅长利用外部数据实时解决问题,并擅长自动执行知识密集型任务。与基础模型的被动文本生成功能相比,这些功能可让代理提供更可靠的结果。
如需详细了解 AI 客服人员,请参阅什么是 AI 客服人员。
上下文窗口
上下文窗口是指基础模型在给定问题中可以处理的 token 数量。上下文窗口越大,模型就可以访问和处理更多信息,从而生成更连贯、更相关且更全面的回答。
Gemini 模型专门使用长上下文窗口来处理这些大量信息。为了让您大致了解其规模,我们举例说明一下:上下文窗口为 100 万个令牌的模型可以处理以下任一输入:
- 50,000 行代码(标准为每行 80 个字符)
- 您在过去 5 年内发送的所有短信
- 8 部平均长度的英语小说
- 200 多个平均时长播客剧集的转写内容
- 1 小时视频,不含音频
- 约 45 分钟的有声视频
- 9.5 小时音频
如需详细了解有关长文本提示的最佳实践,请参阅长文本。
embedding
嵌入是数据(例如文本、图片或视频)的数值表示法,用于捕获不同输入之间的关系。在模型的训练阶段,系统会将文本、图片和视频转换为浮点数数组(称为向量),从而生成嵌入。嵌入通常会降低数据的维度,这有助于提高计算效率并支持处理大型数据集。这种���度缩减对于训练和部署复杂模型至关重要。
机器学习 (ML) 模型需要以可处理的格式表示数据。嵌入通过将数据映射到连续的矢量空间来满足这一要求,其中更近的数据点反映了具有相似含义的数据点。借助嵌入,模型可以辨别原始数据中会被掩盖的细微模式和关系。
例如,大语言模型 (LLM) 依赖于嵌入来理解文本的上下文和含义。有了这种理解,LLM 便可生成连贯且相关的回答。在图片生成过程中,嵌入会捕获图片的视觉特征,从而使模型能够生成逼真且多样化的输出。
使用检索增强生成 (RAG) 的系统依赖于嵌入来将用户查询与相关知识进行匹配。提出查询后,系统会将其转换为嵌入,然后将该嵌入与知识库中的文档嵌入进行比较。这种比较由向量空间中的相似性搜索提供支持,可让系统检索语义相关性最高的信息。
如需详细了解嵌入模型和用例,请参阅嵌入 API 概览。
基础模型
基础模型是大型强大的模型,使用大量数据进行训练,这些数据通常涵盖文本、图片、视频和音频等多种模态。这些模型使用统计建模来预测对问题的可能回答,并生成新内容。它们会从训练数据中学习各种模式,例如用于生成文本的语言模式和用于生成图片的扩散技术。
Google 提供可通过托管 API 访问的各种生成式 AI 基础模型。如需访问 Google Cloud中提供的基础模型,请使用 Vertex AI Model Garden。
函数调用
函数调用是一项功能,可将大语言模型 (LLM) 连接到 API 和函数等外部工具,以增强 LLM 的回答。借助此功能,LLM 可以超越静态知识,并利用数据库、客户关系管理系统和文档库等实时信息和服务来改进回答。
如需使用函数调用,您需要向模型提供一组函数。然后,���您向模型提问时,模型可以根据您的请求选择和调用函数。该模型会分析问题,然后生成结构化数据,其中指定了要调用的函数和参数值。结构化数据输出会调用该函数,然后将结果返回给模型。模型会将结果纳入其推理中,以生成回答。通过此过程,模型可以访问和利用超出其内部知识的信息,从而执行需要外部数据或处理的任务。
函数调用是AI 代理架构中的关键组成部分。函数调用为模型提供了一种结构化的方式来指定要使用的工具以及如何设置输入格式,这有助于确保与外部系统进行精确的互动。
如需详细了解 Gemini 中的函数调用,请参阅函数调用简介。
生成式 AI
生成式 AI 是一种超越传统 AI 的 AI,传统 AI 侧重于分类和预测。传统 AI 模型擅长从现有数据学习,以对信息进行分类或根据历史模式预测未来的结果。生成式 AI 使用基础模型生成文本、图片、音频或视频等新内容。这种新内容的生成方式是学习训练数据的底层模式和风格,从而让模型能够有效地生成与其训练所依据的数据相似的输出。
详细了解何时使用生成式 AI 以及生成式 AI 业务应用场景。
grounding
接地是指将模型的输出与可验证的信息源相关联的过程。这些来源可能提供实用且因情境而异的信息,例如公司内部文档、项目专用数据或通信记录。通过为模型提供访问特定数据源的权限,建立依据有助于提高 AI 输出的准确性、可靠性和实用性。接地可降低模型产生幻觉(即模型生成不符合事实的内容)的可能性。一种常见的“建立依据”类型是检索增强生成 (RAG),它涉及检索相关的外部信息,以增强模型的回答。
如需详细了解如何依托 Google 搜索建立依据,请参阅依据概览。
大语言模型 (LLM)
大语言模型 (LLM) 是一种基于文本的基础模型,使用大量数据进行训练。LLM 用于执行自然语言处理 (NLP) 任务,例如文本生成、机器翻译、文本摘要和问答。LLM 一词有时可与基础模型互换使用。不过,LLM 是基于文本的,而基础模型可以使用多种模态(包括文本、图片、音频和视频)进行训练,并接收来自这些模态的输入。
为了学习语言中的模式和关系,LLM 会使用强化学习和指令微调等技术。在设计问题时,请务必考虑可能影响模型回答的各种因素。
延迟时间
延迟时间是指模型处理输入提示并生成回答所需的时间。检查模型延迟时间时,请考虑以下事项:
- 第一个词元 (TTFT) 的时间:模型在收到提示后生成回答的第一个词元所需的时间。对于需要即时反馈的流式传输应用,TFTF 非常重要。
- 最后一个词元 (TTLT) 的时间:模型处理提示并生成完整回答所需的总时间。
如需了解如何缩短延迟时间,请参阅大语言模型 (LLM) 的最佳实践。
提示工程
提示工程是指创建提示并访问模型回答以获取所需回答的迭代过程。编写结构化良好的提示是确保从语言模型获得准确优质回答的重要环节。
以下是可用于改进回答的常见技巧:
- 零样本提示:提供不含任何示例的提示,并依赖于模型的现有知识。
- 单样本提示:在提示中提供单个示例,以引导模型的回答。
- 少样本提示:在提示中提供多个示例,以演示您想要的模式或任务。
向模型提供示例有助于控制模型回答的各个方面,例如格式、措辞、范围和整体模式。有效的少样本问题将清晰的指令与具体且多样的示例相结合。请务必进行实验以确定最佳示例数量;示例过少可能无法提供足够的指导,但示例过多可能会导致模型过度拟合示例,无法很好地进行泛化。
如需详细了解提示的最佳实践,请参阅提示策略概览。
提示
提示是发送到生成式 AI 模型以引出回答的自然语言请求。根据模型的不同,提示可以包含文本、图片、视频、音频、文档和其他模态,甚至包含多模态(多模态提示)。
有效的提示包含内容和结构。内容提供所有相关的任务信息,例如说明、示例和背景信息。结构可确保通过组织(包括排序、标签和分隔符)高效解析。根据您想要的输出,您可能需要考虑其他组件。
模型参数
模型参数是模型用来确定模型如何处理输入数据以及如何生成输出的内部变量。在训练期间,您可以调整模型参数(例如权重和偏差),以优化模型的性能。在推理过程中,您可以通过各种提示参数来影响模型的输出,而这些参数不会直接更改已学习的模型参数。
以下是一些会影响 Vertex AI 中 Gemini API 中内容生成的提示参数:
temperature
:温度会改变生成回答期间选择 token 的随机性,这会影响输出的创造性和可预测性。temperature
的值范围为0
到1
。温度越低(越接近0
),生成的结果就越确定、越可预测。温度越高(越接近1
),生成的文本就越多样化和富有创意,但结果可能不太连贯。topP
:Top-P 可更改模型对输出词元的抽样和选择方式。Top-P 会选择累计概率超过阈值(即p
)的一组最小的 token,然后从该分布中进行抽样。topP
的值范围为0
到1
。例如,如果词元 A、B 和 C 的概率分别为 0.3、0.2 和 0.1,并且topP
值为0.5
,则模型将选择 A 或 B 作为下一个词元(通过温度确定),并会排除 C 作为候选词元。topK
:Top-K 可更改模型对输出词元的抽样和选择方式。Top-K 会选择生成回答时统计概率最高的令牌。topK
的值表示1
到40
之间的词元数量,模型会在生成回答之前从中进行选择。例如,如果词元 A、B、C 和 D 的概率分别为 0.6、0.5、0.2 和 0.1,并且 Top-K 的值为3
,则模型将选择 A、B 或 C 作为下一个词元(通过温度确定),并会排除 D 作为候选词元。maxOutputTokens
:maxOutputTokens
设置用于更改回答中可生成的词元数量上限。值越低,生成的回答就越短;值越高,生成的回答就可能越长。
如需详细了解 Vertex AI 中 Gemini API 中的抽样参数,请参阅内容生成参数。
检索增强生成 (RAG)
检索增强生成 (RAG) 是一种利用在模型训练后检索到的知识源进行接地,以提高大语言模型 (LLM) 输出质量和准确性的技术。RAG 可解决 LLM 的局限性,例如事实不准确、无法访问最新或专业信息以及无法引用来源。通过提供对从可信知识库或文档中检索到的信息的访问权限(包括模型未在训练时使用的数据、专有数据或特定于用户的敏感数据),RAG 使 LLM 能够生成更可靠且与上下文相关的回答。
当使用 RAG 的模型收到您的问题时,RAG 流程会完成以下阶段:
- 检索:搜索与问题相关的数据。
- 增强:将检索到的数据附加到问题中。
- 生成:
- 指示 LLM 根据增强型问题创建摘要或回答。
- 返回响应。
如需详细了解 Vertex AI 和 RAG,请参阅 Vertex AI RAG Engine 概览。
tokens
令牌是基础模型处理的数据基本单位。模型会将问题中的数据拆分为多个词元进行处理。模型使用的所有令牌组称为词汇。令牌可以是单个字符(例如 z
)、完整字词(例如 cat
),也可以是较长字词的部分。
分词器会将长单词(例如复杂或技术术语、复合词或包含标点符号和特殊字符的词)分解为多个词元。将文本拆分为词元的流程称为词元化。令牌化旨在创建具有语义含义的令牌,这些令牌可以重新组合以理解原始字词。例如,“predefined”一词可以拆分为以下令牌:“pre”“define”“ed”。
令牌可以表示图片、视频和音频等多模态输入。嵌入技术可将多模态输入转换为数值表示法,以便模型将其作为令牌进行处理。以下是多模式输入示例的近似令牌计算结果,无论显示屏或文件大小如何:
- 图片:令牌总数为 258 个
- 视频:每秒 263 个令牌
- 音频:每秒 32 个令牌
每个模型在提示和响应中可以处理的词元数都有上限。此外,模型使用费用是根据输入和输出令牌的数量计算得出的。如需了解如何获取发送给 Gemini 模型的提示的令牌数,请参阅列出和统计令牌数。如需了解 Vertex AI 上的生成式 AI 模型的费用,请参阅 Vertex AI 价格。
tuning
调优是调整基础模型以更准确地执行特定任务的过程。调优是通过调整模型的部分或全部参数来实现的,也可以通过在包含可重现所需任务和结果的示例的数据集上训练模型来实现。调整是一个迭代过程,可能很复杂且成本高昂,但有可能显著提升性能。如果您拥有包含 100 多个示例的标记化数据集,并且想要执行复杂或独特的任务(提示技术不足以完成),则调优最为有效。
以下是 Vertex AI 支持的调优技术:
- 完整微调:一种在微调过程中更新模型的所有参数的技术。全面微调的计算开销可能很高,并且可能需要大量数据,但也有可能实现最高性能,尤其是对于复杂任务。
- 参数高效调优:也称为适配器调优;参数高效调优会在调优过程中更新模型的部分参数。与全面微调相比,参数高效调优更省资源且更经济实惠。
- 监督式微调:一种基于带标签的输入-输出对训练模型的技术。监督式微调通常用于涉及分类、翻译和总结的任务。
如需详细了解如何进行调优,请参阅调优简介。