UI-TARS-Desktop:字节开源桌面自动化 Agent,26K Stars 的 Claude Computer Use 替代品
告别RPA脚本,说人话就能操控电脑
想象一个场景:你想把最近一周的邮件附件全部下载、压缩、上传到云盘。正常情况下,你要打开邮箱→逐个下载→打开压缩软件→拖入文件→打开云盘→上传。运气好的话,5分钟搞定。
现在你对电脑说一句话:“帮我把这周所有邮件附件打包上传到网盘”,30秒后,完成了。
这不是科幻。字节跳动开源的 UI-TARS Desktop 已经做到了——26,685 stars1的GitHub仓库背后,是一套能让AI像人类一样"看懂屏幕内容并动手操作"的完整Agent框架。
它跟我们熟知的Claude Computer Use有什么不同?
Antrophic的Claude Computer Use开创了"语言模型操控电脑"这个品类,但有两个硬伤:必须联网、依赖闭源API。
UI-TARS Desktop的答卷是:完全本地运行,模型无关(model-agnostic),Apache 2.0开源协议。2
你可以接入GPT-4o、Claude 3.5 Sonnet、字节豆包4、通义千问——用你喜欢的任何多模态大模型驱动它。想完全离线?没问题,加载一个本地的Qwen3-4B视觉模型,它照样能跑。3
两者还有一个根本性的架构差异。Claude Computer Use是以截图+坐标的方式理解屏幕;UI-TARS Desktop的核心——UI-TARS视觉语言模型——经过了数十亿张GUI截图和操作轨迹的训练,能真正理解UI元素的语义。4 它知道什么是"保存按钮"、什么是"搜索框",不是靠坐标匹配,而是靠视觉理解。
核心架构:看、想、做、记
UI-TARS Desktop将GUI Agent的工作拆成四个模块,统一到一个多模态LLM里:5
| |
- Perception(感知):直接处理屏幕截图,识别按钮、文本框、图标和布局,不需要OCR、不需要Accessibility API、不需要控件ID
- Reasoning(推理):理解你的自然语言指令(“把这个表格的第3列删掉”),拆解成操作序列
- Action(动作):精确模拟鼠标点击、键盘输入、拖拽——坐标粒度精细到像素级
- Memory(记忆):在多步骤任务中保持状态,知道"刚才打开了什么窗口"“表单已经填到哪一步了”
这意味着它面对的是一个"真实世界"的桌面,不是为自动化特意准备的干净环境。窗口大小变了?按钮换了位置?它都能适应的,因为它理解的是"保存按钮"这个概念,而不是"第587像素×第342像素"这个坐标。
桌面端的完整Agent栈
UI-TARS Desktop不是单兵作战。它是TARS多模态AI Agent栈的一部分:6
| 组件 | 定位 | 入口 |
|---|---|---|
| Agent TARS | 通用多模态AI Agent框架,集成GUI Agent + Vision + MCP工具链 | CLI + Web UI |
| UI-TARS Desktop | 原生桌面GUI Agent应用,面向终端用户 | Electron桌面应用 |
Agent TARS偏向开发者/自动化工程师,通过CLI集成MCP(Model Context Protocol)工具;UI-TARS Desktop偏向"开箱即用"的普通用户,装好Electron应用就能干活。
另外,UI-TARS Desktop内置了一套混合浏览器代理策略:7 它同时使用视觉理解(看截图)和DOM接入(读网页结构),自动选择当前最有效的交互方式。对网页操作来说,这补上了纯视觉方案在复杂表单和多层弹窗场景下的短板。
快速上手
| |
安装后需要配置至少一个大模型API:
- 豆包(推荐):字节自家的多模态模型,亲儿子优化
- OpenAI GPT-4o:通用性强
- Anthropic Claude 3.5:界面理解细致
- 本地模型:通过Ollama加载Qwen3-4B-VL等开源视觉模型,完全离线8
启动后的交互极简:一个浮窗,你说一句"帮我把桌面上的PDF全部打开转成图片",它就开始干活了——你甚至能看到鼠标自己在动。
能做什么?能做的还挺多
社区已经验证过的场景:9
日常自动化
- “从财务报表里把Q2的数据提取出来,做成一个汇总表”
- “帮我把这个Notion页面里的所有外部链接整理成书签”
软件测试
- 一个指令跑完整个回归测试流程,不需要写Selenium脚本
- UI变更后自动重新适配操作路径
RPA替代
- 传统RPA方案依赖控件ID,界面一改就得重写脚本
- UI-TARS靠视觉理解,控件换位置不影响
多应用串联
- “先把Excel里的客人名单读出来,然后去Gmail给每个人发邀请函,同时在Notion更新参会状态”
- 真正的跨应用自动化,不需要API、不需要插件
但它的限制也要讲清楚
模型能力是天花板。UI-TARS Desktop是一个Agent框架,不是一个AI模型。框架再好,最终看的是背后驱动模型是否足够聪明。用Qwen3-4B驱动和用GPT-4o驱动的体验差距很大——前者可能经常点错,后者基本指哪打哪。
操作速度不如脚本。每个"看→想→点"的循环大约需要2-5秒,比纯脚本慢一个数量级。它不是用来替代自动化脚本的,是用来解决"写脚本不值得但手动做又太烦"那类任务的。
截至2026年6月,Windows和macOS支持较好,Linux还在追赶。安装需要Node.js 18.17+和pnpm 8+,推荐16GB以上内存。10
开源Agent的新范式
UI-TARS Desktop的价值不止于工具本身。它展示了一种趋势:AI Agent正在从"API调用"进化到"直接操作图形界面"。
过去我们想让AI干活,得给每个应用写API集成。UI-TARS Desktop说:不需要,能看到的界面它就能操作。这套范式一旦成熟,将是应用集成的一次范式级简化——以后所有软件都自带Agent接口,因为Agent能通过界面直接和它们交互。
字节跳动把它全部开源(Apache 2.0),生态想象力还有很多。2
📖 延伸阅读
- 🤖 Ornith-1.0 Agent编程 — 编程侧Agent对比
- 🧠 MRAgent记忆框架 — Agent省钱之道
- 📧 Agent专属邮箱 — Agent需要身份
ByteDance. “UI-TARS-desktop - GitHub Repository”. https://github.com/bytedance/UI-TARS-desktop ↩︎
UI-TARS Desktop GitHub. “LICENSE file”. https://github.com/bytedance/UI-TARS-desktop/blob/main/LICENSE ↩︎ ↩︎
CSDN. “UI-TARS-desktop 完整使用教程(2026最新版)”. 2026年5月24日. https://blog.csdn.net/weixin_44092861/article/details/161306601 ↩︎
搜狐. “字节跳动UI-TARS-1.5重磅发布”. 2025年5月5日. https://www.sohu.com/a/892158362_524624 ↩︎
CSDN. “UI-TARS-desktop:原生多模态GUI Agent开源应用”. 2026年5月11日. https://blog.csdn.net/forcedregcsdn/article/details/160987466 ↩︎
CSDN. “UI-TARS Desktop 安装、使用方法详细全解”. 2026年6月10日. https://blog.csdn.net/weixin_43796399/article/details/161852577 ↩︎
CSDN. “一天一个开源项目:UI-TARS-Desktop”. 2026年5月11日. https://blog.csdn.net/chendongqi2007/article/details/160992824 ↩︎
ByteDance. “UI-TARS-desktop README - Installation”. https://github.com/bytedance/UI-TARS-desktop#readme ↩︎
腾讯网. “豆包手机核心技术UI-TARS开源桌面版”. 2026年2月11日. https://new.qq.com/rain/a/20260211A04OE100 ↩︎
CSDN. “小白必看!UI-TARS-desktop保姆级安装与使用指南”. 2026年2月21日. https://blog.csdn.net/weixin_34547628/article/details/157158426 ↩︎
寻找技术支持帮助和技术合伙人一起搞事。
相关内容
- Ornith-1.0评测:自进化开源Coding Agent,本地跑出SWE-Bench 82.4分
- Sakana Fugu深度解析:7B小模型如何编排出顶级性能
- Self-Harness:让AI Agent学会自我修复的框架
- HyperFrames vs Remotion:AI视频生成框架对比
- TRAE国际版Solo邀请码一枚免费分享
- Claude Code 源码泄露 Claw Code 深度源码专题报道
