Qwen-AgentWorld上手指南：用语言世界模型训练Agent

2026-06-24 2026-06-24 约 3300 字预计阅读 7 分钟 0 条评论 0 次阅读

📰 本文选自自游人今日AI科技日报

Agent训练的范式转换

训练AI Agent一直有个麻烦：你得给它真实的环境去交互。想让Agent学会用终端？搭个沙箱。学会操作浏览器？开个Chromium。学会用操作系统？配个虚拟机。每种环境都要配一套独立的执行引擎——开发成本高、速度慢、还容易出错。

千问团队6月24日发布的Qwen-AgentWorld试图彻底解决这个问题。思路很直觉化：既然LLM本身就是靠预测下一个token起家的，那能不能让模型直接预测"在某个Agent环境中做某个操作之后，环境会变成什么样"？如果能，就可以用纯文本模拟整个世界——不需要真实沙箱、不需要浏览器、不需要虚拟机。

这就是"语言世界模型"（Language World Model，LWM）的核心概念[^1]。

语言世界模型：用文字模拟整个世界

先把这个概念讲清楚。

传统的强化学习中有一个东西叫"World Model"（世界模型）——让AI学习环境的内部动力学，预测"在状态S执行动作A，环境变成状态S’"。比如在Atari游戏中，世界模型预测下一帧画面。这可以让Agent在"想象"中训练，不用真的玩游戏。

Qwen-AgentWorld把这个概念搬到了语言空间。它不预测像素，而是直接预测文本——“你输入了命令ls -la，终端会输出什么”。这意味着：

零环境依赖：不需要装Docker、配沙箱、开浏览器，纯文本推理就能模拟Agent行为
极速交互：推理一步的时间≈一次LLM调用的时间，比真实环境快几个数量级
可控模拟：可以按需修改环境行为——比如让终端在某次命令后故意出错，测试Agent的容错能力

七个Agent环境，两种体验类型

Qwen-AgentWorld覆盖了7个交互式环境[^2]，分为两大类：

文本类环境（4个）：

MCP：Model Context Protocol，模拟多个MCP服务器交互
Search：搜索引擎交互，模拟搜索-浏览-提取信息的流程
Terminal：命令行终端，模拟ls/cat/grep/编译/运行等操作
SWE：软件工程环境，模拟代码仓库操作

GUI类环境（3个）：

Web：网页浏览交互
OS：操作系统GUI操作
Android：移动端界面操作

有意思的是，对于GUI环境，Qwen-AgentWorld不渲染像素，而是用可渲染代码表示界面状态——比如不用截图表示网页长什么样，而是用HTML代码描述。这让纯文本模型也能"看见"视觉环境。

双版本选择

Qwen-AgentWorld提供两种规模[^1]：

35B-A3B（MoE）：总参数350亿，激活30亿。单张4090就能跑。适合本地部署和实验。
397B-A17B（MoE）：总参数3970亿，激活170亿。旗舰版，需要多卡部署。

在AgentWorldBench评测中，397B-A17B取得整体均分58.71，超越GPT-5.4（58.25）、Claude Opus 4.8和Gemini 3.1 Pro[^2]。在Terminal和SWE两个领域优势最显著。

更让人意外的是35B-A3B的表现：经过三阶段训练后，整体均分提升了8.66分，小模型超过了Claude Sonnet 4.6。这说明LWM方法对小模型特别有效——因为小模型更需要高效的训练信号。

训练过程：CPT→SFT→RL三阶段

Qwen-AgentWorld不是把通用LLM拿去微调就完事，而是从继续预训练（CPT）阶段起就把环境建模作为核心目标[^2]：

第一阶段：CPT（继续预训练）

基于1000万条真实环境交互轨迹进行预训练。关键创新是"轮次级信息论损失掩码"——不是每一条对话轮都对环境建模有用，算法自动识别出真正承载环境动态的轮次，只在这些轮次上施加训练信号。

第二阶段：SFT（监督微调）

将"预测下一步状态"这个任务激活为思维链推理模式。模型不直接输出环境状态，而是先推理、再输出——这大大提升了预测的可解释性和准确性。

第三阶段：RL（强化学习）

用混合奖励信号精炼输出质量，包括状态预测的准确率、思维链的合理性、以及最终Agent在模拟环境中的任务完成率。

这种"全程原生"的训练方式使得Qwen-AgentWorld与底层环境深度融合，而不是事后挂在通用模型上的插件。

代码上手：5分钟跑起来

模型和评测基准已开源在HuggingFace和ModelScope[^3]。最小可运行步骤：

环境准备

1
2
3
4
5
6
# 安装依赖
pip install transformers torch accelerate

# 从ModelScope下载模型（国内更快）
pip install modelscope
modelscope download --model Qwen/Qwen-AgentWorld-35B-A3B

基础推理

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto"
)

# 构建环境交互提示
prompt = """<|im_start|>system
You are a language world model. Given the current environment state and an agent action, predict the next state.
Current environment: Terminal (Ubuntu 22.04)
<|im_end|>
<|im_start|>user
Action: ls /home/user/
Current directory contents: file1.txt, project/
<|im_end|>
<|im_start|>assistant
"""

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

用LWM训练Agent的完整流程

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
# 1. 加载世界模型（模拟环境）
lwm = load_model("Qwen/Qwen-AgentWorld-35B-A3B")

# 2. 加载Agent策略模型
agent = load_model("Qwen/Qwen3.6-27B")

# 3. 模拟交互循环
state = "环境初始状态..."
for step in range(100):
    # Agent产生动作
    action = agent.generate(f"当前状态: {state}\n下一步操作:")
    
    # LWM预测新状态（不需要真实环境！）
    state = lwm.generate(
        f"环境: {state}\nAgent操作: {action}\n预测新状态:"
    )
    
    # 根据状态计算奖励，更新Agent策略
    reward = compute_reward(state)
    agent.update(reward)

与传统Agent训练的对比

维度	传统方法	Qwen-AgentWorld
环境依赖	需要Docker/沙箱/浏览器	零环境依赖
交互速度	受限于真实环境执行时间	单次LLM推理
环境可控性	有限	完全可控，可注入错误
跨领域迁移	需要重新适配	训练覆盖7个领域
部署成本	需要多套环境基础设施	一个模型

论文还特别指出了LWM的两种互补应用范式[^2]：

范式一：解耦环境模拟器

LWM作为独立的环境模拟器，为任意Agent策略提供训练环境。由于LWM可注入受控错误和噪声，可以实现真实环境做不到的训练方式——比如反复生成特定类型的错误场景来强化Agent的容错能力。

范式二：统一Agent基础模型

LWM预热训练后，可以直接迁移到多轮Agent任务上做微调，不需要再从零开始在Agent任务上RL。这大大降低了新场景的Agent训练成本。

你该用吗？

适合的场景：

快速原型开发：想测试一个Agent思路但懒得配沙箱
大规模Agent训练：需要数千次交互迭代，真实环境太慢太贵
错误场景训练：需要模拟各种边缘情况
多领域Agent：一个模型覆盖多个交互环境

暂时不适合的场景：

需要精确像素级GUI操作（目前是代码渲染，非像素）
严格的合规审计场景（模拟环境的误差可能产生法律风险）
需要物理世界交互的Agent（LWM只模拟数字环境）

Qwen-AgentWorld代表了一场Agent训练范式转换的起点。把"需要真实环境"这件事从必要条件变成可选项，对开发者来说不是"快了一点"，而是"以前做不了的事现在可以做了"。

参考来源:

阿里千问发布首个原生语言世界模型Qwen-AgentWorld — 架构设计与双版本规模
通义千问发布首个语言世界模型Qwen-AgentWorld - IT时代网 — 三阶段训练与Benchmark数据
Qwen launches AgentWorld language world model and benchmark - 界面新闻 — 开源发布信息
千问发布Qwen-AgentWorld - 钛媒体 — 评测基准AgentWorldBench
Qwen-Agent框架GitHub — 官方Agent开发框架

📖 延伸阅读

🔧 GLM-5.2 本地部署实战：M3 Ultra 跑出 21.6 tok/s — 本地部署实战
🔧 Unsloth 从零到一训练指南：显存减70%，速度翻倍 — 训练效率翻倍
🧠 Claude Tag 深度体验：Anthropic 打响 Slack 协作 AI 第一枪 — Slack原生AI协作

原文链接： https://www.17you.com/ai/qwen-agentworld-guide/ 已复制！

一起薅AI羊毛

保持关注，记得把网址（17you.com）加收藏夹！有空经常来网站看看！我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术，以及最新的应用场景。

请点击联系我

Qwen-AgentWorld上手指南：用语言世界模型训练Agent

Agent训练的范式转换

语言世界模型：用文字模拟整个世界

七个Agent环境，两种体验类型

双版本选择

训练过程：CPT→SFT→RL三阶段

代码上手：5分钟跑起来

环境准备

基础推理

用LWM训练Agent的完整流程

与传统Agent训练的对比

你该用吗？

📖 延伸阅读

相关内容

目录