Qwen-AgentWorld上手指南:用语言世界模型训练Agent

📰 本文选自 自游人今日AI科技日报

Agent训练的范式转换

训练AI Agent一直有个麻烦:你得给它真实的环境去交互。想让Agent学会用终端?搭个沙箱。学会操作浏览器?开个Chromium。学会用操作系统?配个虚拟机。每种环境都要配一套独立的执行引擎——开发成本高、速度慢、还容易出错。

千问团队6月24日发布的Qwen-AgentWorld试图彻底解决这个问题。思路很直觉化:既然LLM本身就是靠预测下一个token起家的,那能不能让模型直接预测"在某个Agent环境中做某个操作之后,环境会变成什么样"?如果能,就可以用纯文本模拟整个世界——不需要真实沙箱、不需要浏览器、不需要虚拟机。

这就是"语言世界模型"(Language World Model,LWM)的核心概念[^1]。

语言世界模型:用文字模拟整个世界

先把这个概念讲清楚。

传统的强化学习中有一个东西叫"World Model"(世界模型)——让AI学习环境的内部动力学,预测"在状态S执行动作A,环境变成状态S’"。比如在Atari游戏中,世界模型预测下一帧画面。这可以让Agent在"想象"中训练,不用真的玩游戏。

Qwen-AgentWorld把这个概念搬到了语言空间。它不预测像素,而是直接预测文本——“你输入了命令ls -la,终端会输出什么”。这意味着:

  • 零环境依赖:不需要装Docker、配沙箱、开浏览器,纯文本推理就能模拟Agent行为
  • 极速交互:推理一步的时间≈一次LLM调用的时间,比真实环境快几个数量级
  • 可控模拟:可以按需修改环境行为——比如让终端在某次命令后故意出错,测试Agent的容错能力

七个Agent环境,两种体验类型

Qwen-AgentWorld覆盖了7个交互式环境[^2],分为两大类:

文本类环境(4个):

  • MCP:Model Context Protocol,模拟多个MCP服务器交互
  • Search:搜索引擎交互,模拟搜索-浏览-提取信息的流程
  • Terminal:命令行终端,模拟ls/cat/grep/编译/运行等操作
  • SWE:软件工程环境,模拟代码仓库操作

GUI类环境(3个):

  • Web:网页浏览交互
  • OS:操作系统GUI操作
  • Android:移动端界面操作

有意思的是,对于GUI环境,Qwen-AgentWorld不渲染像素,而是用可渲染代码表示界面状态——比如不用截图表示网页长什么样,而是用HTML代码描述。这让纯文本模型也能"看见"视觉环境。

双版本选择

Qwen-AgentWorld提供两种规模[^1]:

  • 35B-A3B(MoE):总参数350亿,激活30亿。单张4090就能跑。适合本地部署和实验。
  • 397B-A17B(MoE):总参数3970亿,激活170亿。旗舰版,需要多卡部署。

在AgentWorldBench评测中,397B-A17B取得整体均分58.71,超越GPT-5.4(58.25)、Claude Opus 4.8和Gemini 3.1 Pro[^2]。在Terminal和SWE两个领域优势最显著。

更让人意外的是35B-A3B的表现:经过三阶段训练后,整体均分提升了8.66分,小模型超过了Claude Sonnet 4.6。这说明LWM方法对小模型特别有效——因为小模型更需要高效的训练信号。

训练过程:CPT→SFT→RL三阶段

Qwen-AgentWorld不是把通用LLM拿去微调就完事,而是从继续预训练(CPT)阶段起就把环境建模作为核心目标[^2]:

第一阶段:CPT(继续预训练)

基于1000万条真实环境交互轨迹进行预训练。关键创新是"轮次级信息论损失掩码"——不是每一条对话轮都对环境建模有用,算法自动识别出真正承载环境动态的轮次,只在这些轮次上施加训练信号。

第二阶段:SFT(监督微调)

将"预测下一步状态"这个任务激活为思维链推理模式。模型不直接输出环境状态,而是先推理、再输出——这大大提升了预测的可解释性和准确性。

第三阶段:RL(强化学习)

用混合奖励信号精炼输出质量,包括状态预测的准确率、思维链的合理性、以及最终Agent在模拟环境中的任务完成率。

这种"全程原生"的训练方式使得Qwen-AgentWorld与底层环境深度融合,而不是事后挂在通用模型上的插件。

代码上手:5分钟跑起来

模型和评测基准已开源在HuggingFace和ModelScope[^3]。最小可运行步骤:

环境准备

1
2
3
4
5
6
# 安装依赖
pip install transformers torch accelerate

# 从ModelScope下载模型(国内更快)
pip install modelscope
modelscope download --model Qwen/Qwen-AgentWorld-35B-A3B

基础推理

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto"
)

# 构建环境交互提示
prompt = """<|im_start|>system
You are a language world model. Given the current environment state and an agent action, predict the next state.
Current environment: Terminal (Ubuntu 22.04)
<|im_end|>
<|im_start|>user
Action: ls /home/user/
Current directory contents: file1.txt, project/
<|im_end|>
<|im_start|>assistant
"""

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

用LWM训练Agent的完整流程

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
# 1. 加载世界模型(模拟环境)
lwm = load_model("Qwen/Qwen-AgentWorld-35B-A3B")

# 2. 加载Agent策略模型
agent = load_model("Qwen/Qwen3.6-27B")

# 3. 模拟交互循环
state = "环境初始状态..."
for step in range(100):
    # Agent产生动作
    action = agent.generate(f"当前状态: {state}\n下一步操作:")
    
    # LWM预测新状态(不需要真实环境!)
    state = lwm.generate(
        f"环境: {state}\nAgent操作: {action}\n预测新状态:"
    )
    
    # 根据状态计算奖励,更新Agent策略
    reward = compute_reward(state)
    agent.update(reward)

与传统Agent训练的对比

维度传统方法Qwen-AgentWorld
环境依赖需要Docker/沙箱/浏览器零环境依赖
交互速度受限于真实环境执行时间单次LLM推理
环境可控性有限完全可控,可注入错误
跨领域迁移需要重新适配训练覆盖7个领域
部署成本需要多套环境基础设施一个模型

论文还特别指出了LWM的两种互补应用范式[^2]:

范式一:解耦环境模拟器

LWM作为独立的环境模拟器,为任意Agent策略提供训练环境。由于LWM可注入受控错误和噪声,可以实现真实环境做不到的训练方式——比如反复生成特定类型的错误场景来强化Agent的容错能力。

范式二:统一Agent基础模型

LWM预热训练后,可以直接迁移到多轮Agent任务上做微调,不需要再从零开始在Agent任务上RL。这大大降低了新场景的Agent训练成本。

你该用吗?

适合的场景:

  • 快速原型开发:想测试一个Agent思路但懒得配沙箱
  • 大规模Agent训练:需要数千次交互迭代,真实环境太慢太贵
  • 错误场景训练:需要模拟各种边缘情况
  • 多领域Agent:一个模型覆盖多个交互环境

暂时不适合的场景:

  • 需要精确像素级GUI操作(目前是代码渲染,非像素)
  • 严格的合规审计场景(模拟环境的误差可能产生法律风险)
  • 需要物理世界交互的Agent(LWM只模拟数字环境)

Qwen-AgentWorld代表了一场Agent训练范式转换的起点。把"需要真实环境"这件事从必要条件变成可选项,对开发者来说不是"快了一点",而是"以前做不了的事现在可以做了"。


参考来源:

  1. 阿里千问发布首个原生语言世界模型Qwen-AgentWorld — 架构设计与双版本规模
  2. 通义千问发布首个语言世界模型Qwen-AgentWorld - IT时代网 — 三阶段训练与Benchmark数据
  3. Qwen launches AgentWorld language world model and benchmark - 界面新闻 — 开源发布信息
  4. 千问发布Qwen-AgentWorld - 钛媒体 — 评测基准AgentWorldBench
  5. Qwen-Agent框架GitHub — 官方Agent开发框架

📖 延伸阅读

最后更新:2026-06-24
本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM · 转载请注明出处

原文链接: https://www.17you.com/ai/qwen-agentworld-guide/ 已复制!
一起薅AI羊毛

保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。

请点击联系我


相关内容