AI智能体核心术语详解

AI智能体领域发展迅猛,但术语乱飞、概念混淆,是不是经常让你一头雾水?特别是“运行框架”和“支撑层”这类词,听着就懵。别急,这篇文章就是来帮你排忧解难的。咱们结合行业实践,把那些容易混淆的核心术语捋清楚,搭一个清晰的概念框架,让你以后交流、学习都更顺畅。

核心基础组件

模型

这里的模型特指大语言模型(LLM),典型代表有Claude、通义千问、GPT、Kimi、DeepSeek等。

大模型本身仅具备单次文本输入、文本输出的能力:调用之间没有记忆留存,也无法自主形成执行循环。它可以在输出中表达调用工具的意图,但无法实际执行工具操作,单次应答后就会停止。只有搭配支撑层与运行框架,大模型才能转变为具备行动能力的智能体。

支撑层

支撑层是定义智能体行为的核心层级,依附于大模型存在,贯穿模型推理与运行全流程。其包含内容有:系统提示词、工具描述、模型输出解析规则、多轮交互的上下文管理与记忆机制等。

它决定了大模型的“认知视角”与行为准则,无论是模型训练阶段还是实际部署推理阶段,支撑层都会持续发挥作用。

在部分产品语境中,支撑层的概念会被宽泛化,代指运行框架所依赖的全部基础设施,例如程序钩子、运行环境配置、目录结构等。市面上部分智能体产品与自研模型深度绑定,也有产品支持接入任意大模型,差异就体现在支撑层的适配设计上。

运行框架

运行框架是智能体的执行中枢,负责驱动整个系统运转,核心工作包括:发起模型调用、解析并执行工具调用指令、判断任务是否终止。围绕运行框架开展的设计优化工作,被称为框架工程,具体包含终止逻辑设计、异常处理、行为安全管控等,训练和部署场景均会用到。

在模型评测场景中,会衍生出评测框架:它不会更新模型权重,而是让模型在固定场景中运行,最终记录各项评测指标。

补充区分:业内还有调度器概念,它是更高层级的控制器,负责统筹多个智能体协同工作;而运行框架只服务于单个模型,驱动其完成执行循环,二者职责不同。

智能体

智能体的概念最早源于强化学习,基础逻辑是循环交互:智能体接收环境观测信息、输出动作,环境根据动作更新状态并返回新观测,循环往复。这一逻辑至今仍是大语言模型智能体的核心运行模式。

在大模型领域,智能体被赋予了更丰富的含义:由大模型+周边配套组件共同组成、具备自主行动能力的完整系统,不再局限于单纯的文本应答。行业内普遍总结出公式:智能体 = 大模型 + 运行框架。

以代码智能体为例:系统提示词、工具说明、输出格式规则属于支撑层;调用模型、执行工具、判断终止的循环逻辑属于运行框架。两款产品即便使用同款底层大模型,不同的运行框架与支撑层设计,也会带来截然不同的使用体验。

智能体能力相关概念

上下文工程

上下文工程指对智能体上下文窗口内容的整体设计与管理,规划每一轮交互中模型可见的信息,包括系统提示词、工具介绍、对话历史、检索知识库等。

上下文并非一次性配置,运行框架会在智能体执行过程中动态更新上下文内容。该工作在训练与部署阶段的影响差异极大:训练阶段的上下文会直接决定模型的学习方向,配置出错需要重新训练;部署阶段修改上下文仅需调整提示词,可快速重新上线。

记忆模块是上下文工程的重要组成:

  • 短期记忆:单次任务运行过程中留存于上下文窗口内的内容,如对话记录、工具返回结果、推理过程;
  • 长期记忆:跨会话持久存储的信息,按需检索后注入上下文窗口。

策略

策略指智能体遵循的行为规则,定义了智能体在任意场景下采取各类动作的概率。

大模型的部分行为策略固化在模型权重中,但最终表现还会受支撑层、运行框架、提示词、工具、记忆机制的影响。策略不等于智能体:策略是行为准则,智能体是落地执行的完整系统;将训练好的模型权重搭配支撑层与运行框架部署,最终形成的智能体,其行为就由对应的策略决定。

工具调用

工具调用是智能体突破自身能力边界的方式,可对接API、代码解释器、数据库、网页搜索、文件系统等外部能力。

模型会按照指定格式输出调用工具的意图,运行框架接收指令并路由至对应功能模块执行,工具返回结果后会重新汇入上下文,继续开启下一轮执行循环。目前主流大模型推理接口,都已将工具调用作为标准能力。

技能

技能是可复用、结构化的能力集合,专门用于完成多步骤复杂任务。

简单区分:工具是单一动作(例如执行一条终端命令),技能是整套解决方案(例如排查程序漏洞、推导问题原因并编写修复代码)。技能可以在不同智能体中灵活加载使用。在不同技术框架中,工具、技能、子智能体的边界会略有重叠。

子智能体

子智能体是被主智能体调用、负责处理细分子任务的独立智能体。它拥有专属的模型与支撑层,可独立推理、调用工具,甚至继续调用下层子智能体,完成任务后仅向主智能体返回最终结果。

子智能体和工具、技能有本质区别:工具只是函数调用,技能是打包的知识流程,而子智能体具备完整的自主推理能力。统筹管理多个子智能体的主智能体,也常被称作调度器。

模型训练专属术语

上述概念同时适用于智能体部署与训练,以下词汇则专门针对强化学习训练流程。大模型智能体的强化学习训练,遵循统一流水线:智能体执行任务、获取评分、反向更新模型权重。

强化学习环境

环境是智能体交互的对象,属于有状态载体:接收智能体的动作、更新自身状态,并返回新的观测信息。在大模型场景下,智能体的动作大多为工具调用。

举例:文件系统就是典型环境,执行touch foo.txt(动作)会创建文件(状态更新),返回最新文件列表(观测信息)。不同框架对环境的定义略有差异。

训练器

训练器是负责优化模型的核心模块,完整流程为:运行多轮智能体任务、对执行结果打分、依据分数更新大模型权重。开源框架中的GRPOTrainer就是典型的训练器实现,集任务生成、奖励打分、权重更新功能于一体。

轨迹样本

轨迹样本也被称作轨迹或运行日志,指智能体从启动到任务结束的一整套完整运行记录,包含每一步的观测信息、执行动作、对应奖励分数。它是强化学习算法的核心训练数据。

奖励

奖励是量化评分标准,用于评判模型表现优劣,训练器依靠奖励值完成模型权重更新。主要分为四类:

  • 可验证型奖励:以客观结果判定,例如用例是否通过、答案是否匹配;
  • 习得型奖励:依托人类偏好或大模型裁判进行打分;
  • 稀疏奖励:仅在整个任务结束后给出一次总分;
  • 密集奖励:在任务的每一个执行步骤都进行打分。

行业还会使用评分规则,将单一总分拆解为多个维度并配置权重,实现精细化打分,部分开源工具可支持规则的组合与复用。

总结

当下AI智能体领域的术语仍未形成全球统一标准,不同产品、框架会对同一词汇做出差异化解读。本文的核心目的并非制定唯一规则,而是搭建一套通用的理解框架:

  • 大模型是基础能力载体,支撑层定义行为规则,运行框架负责执行调度,三者组合构成完整智能体;
  • 上下文工程、工具、技能、子智能体是拓展智能体能力的关键模块;
  • 强化学习环境、训练器、轨迹样本、奖励,共同组成智能体模型的训练体系。

理清这些概念,能有效减少行业沟通偏差,也能帮助开发者更快理解各类智能体框架与产品的底层设计逻辑。

原文链接: https://www.17you.com/library/ai-agent-terminology-guide/ 已复制!
知识和正确的认知铸就美好旅程

加入自游人,有空让我们一起游,打破认知的围墙!

一起 AI、一起搞钱、一起做数字游民,四海漫游。

请点击联系我


相关内容