UI-TARS-desktop：字节开源桌面自动化 Agent，26K Stars 的 Claude Computer Use 替代品

辉哥收录于实用工具与脚本

2026-06-27 2026-06-27 约 3100 字预计阅读 7 分钟 0 条评论 0 次阅读

告别RPA脚本，说人话就能操控电脑

想象一个场景：你想把最近一周的邮件附件全部下载、压缩、上传到云盘。正常情况下，你要打开邮箱→逐个下载→打开压缩软件→拖入文件→打开云盘→上传。运气好的话，5分钟搞定。

现在你对电脑说一句话：“帮我把这周所有邮件附件打包上传到网盘”，30秒后，完成了。

这不是科幻。字节跳动开源的 UI-TARS Desktop 已经做到了——26,685 stars¹的GitHub仓库背后，是一套能让AI像人类一样"看懂屏幕内容并动手操作"的完整Agent框架。

它跟我们熟知的Claude Computer Use有什么不同？

Antrophic的Claude Computer Use开创了"语言模型操控电脑"这个品类，但有两个硬伤：必须联网、依赖闭源API。

UI-TARS Desktop的答卷是：完全本地运行，模型无关（model-agnostic），Apache 2.0开源协议。²

你可以接入GPT-4o、Claude 3.5 Sonnet、字节豆包4、通义千问——用你喜欢的任何多模态大模型驱动它。想完全离线？没问题，加载一个本地的Qwen3-4B视觉模型，它照样能跑。³

两者还有一个根本性的架构差异。Claude Computer Use是以截图+坐标的方式理解屏幕；UI-TARS Desktop的核心——UI-TARS视觉语言模型——经过了数十亿张GUI截图和操作轨迹的训练，能真正理解UI元素的语义。⁴ 它知道什么是"保存按钮"、什么是"搜索框"，不是靠坐标匹配，而是靠视觉理解。

核心架构：看、想、做、记

UI-TARS Desktop将GUI Agent的工作拆成四个模块，统一到一个多模态LLM里：⁵

1
2
3
4
5
6
7
8
┌──────────────────────────────────────┐
│          UI-TARS Native MLLM          │
│                                       │
│  Perception ── Reasoning ── Action    │
│     (看)          (想)         (做)    │
│                Memory                 │
│                 (记)                  │
└──────────────────────────────────────┘

Perception（感知）：直接处理屏幕截图，识别按钮、文本框、图标和布局，不需要OCR、不需要Accessibility API、不需要控件ID
Reasoning（推理）：理解你的自然语言指令（“把这个表格的第3列删掉”），拆解成操作序列
Action（动作）：精确模拟鼠标点击、键盘输入、拖拽——坐标粒度精细到像素级
Memory（记忆）：在多步骤任务中保持状态，知道"刚才打开了什么窗口"“表单已经填到哪一步了”

这意味着它面对的是一个"真实世界"的桌面，不是为自动化特意准备的干净环境。窗口大小变了？按钮换了位置？它都能适应的，因为它理解的是"保存按钮"这个概念，而不是"第587像素×第342像素"这个坐标。

桌面端的完整Agent栈

UI-TARS Desktop不是单兵作战。它是TARS多模态AI Agent栈的一部分：⁶

组件	定位	入口
Agent TARS	通用多模态AI Agent框架，集成GUI Agent + Vision + MCP工具链	CLI + Web UI
UI-TARS Desktop	原生桌面GUI Agent应用，面向终端用户	Electron桌面应用

Agent TARS偏向开发者/自动化工程师，通过CLI集成MCP（Model Context Protocol）工具；UI-TARS Desktop偏向"开箱即用"的普通用户，装好Electron应用就能干活。

另外，UI-TARS Desktop内置了一套混合浏览器代理策略：⁷ 它同时使用视觉理解（看截图）和DOM接入（读网页结构），自动选择当前最有效的交互方式。对网页操作来说，这补上了纯视觉方案在复杂表单和多层弹窗场景下的短板。

快速上手

1
2
3
4
5
# 一键安装（macOS/Linux）
curl -fsSL https://raw.githubusercontent.com/bytedance/UI-TARS-desktop/main/scripts/install.sh | bash

# Windows PowerShell（管理员模式）
irm https://raw.githubusercontent.com/bytedance/UI-TARS-desktop/main/scripts/install.ps1 | iex

安装后需要配置至少一个大模型API：

豆包（推荐）：字节自家的多模态模型，亲儿子优化
OpenAI GPT-4o：通用性强
Anthropic Claude 3.5：界面理解细致
本地模型：通过Ollama加载Qwen3-4B-VL等开源视觉模型，完全离线⁸

启动后的交互极简：一个浮窗，你说一句"帮我把桌面上的PDF全部打开转成图片"，它就开始干活了——你甚至能看到鼠标自己在动。

能做什么？能做的还挺多

社区已经验证过的场景：⁹

日常自动化

“从财务报表里把Q2的数据提取出来，做成一个汇总表”
“帮我把这个Notion页面里的所有外部链接整理成书签”

软件测试

一个指令跑完整个回归测试流程，不需要写Selenium脚本
UI变更后自动重新适配操作路径

RPA替代

传统RPA方案依赖控件ID，界面一改就得重写脚本
UI-TARS靠视觉理解，控件换位置不影响

多应用串联

“先把Excel里的客人名单读出来，然后去Gmail给每个人发邀请函，同时在Notion更新参会状态”
真正的跨应用自动化，不需要API、不需要插件

但它的限制也要讲清楚

模型能力是天花板。UI-TARS Desktop是一个Agent框架，不是一个AI模型。框架再好，最终看的是背后驱动模型是否足够聪明。用Qwen3-4B驱动和用GPT-4o驱动的体验差距很大——前者可能经常点错，后者基本指哪打哪。

操作速度不如脚本。每个"看→想→点"的循环大约需要2-5秒，比纯脚本慢一个数量级。它不是用来替代自动化脚本的，是用来解决"写脚本不值得但手动做又太烦"那类任务的。

截至2026年6月，Windows和macOS支持较好，Linux还在追赶。安装需要Node.js 18.17+和pnpm 8+，推荐16GB以上内存。¹⁰

开源Agent的新范式

UI-TARS Desktop的价值不止于工具本身。它展示了一种趋势：AI Agent正在从"API调用"进化到"直接操作图形界面"。

过去我们想让AI干活，得给每个应用写API集成。UI-TARS Desktop说：不需要，能看到的界面它就能操作。这套范式一旦成熟，将是应用集成的一次范式级简化——以后所有软件都自带Agent接口，因为Agent能通过界面直接和它们交互。

字节跳动把它全部开源（Apache 2.0），生态想象力还有很多。²

📖 延伸阅读

📰 自游人日报 2026.6.27

🤖 Ornith-1.0 Agent编程 — 编程侧Agent对比
🧠 MRAgent记忆框架 — Agent省钱之道
📧 Agent专属邮箱 — Agent需要身份

ByteDance. “UI-TARS-desktop - GitHub Repository”. https://github.com/bytedance/UI-TARS-desktop ↩︎
UI-TARS Desktop GitHub. “LICENSE file”. https://github.com/bytedance/UI-TARS-desktop/blob/main/LICENSE ↩︎ ↩︎
CSDN. “UI-TARS-desktop 完整使用教程(2026最新版)”. 2026年5月24日. https://blog.csdn.net/weixin_44092861/article/details/161306601 ↩︎
搜狐. “字节跳动UI-TARS-1.5重磅发布”. 2025年5月5日. https://www.sohu.com/a/892158362_524624 ↩︎
CSDN. “UI-TARS-desktop：原生多模态GUI Agent开源应用”. 2026年5月11日. https://blog.csdn.net/forcedregcsdn/article/details/160987466 ↩︎
CSDN. “UI-TARS Desktop 安装、使用方法详细全解”. 2026年6月10日. https://blog.csdn.net/weixin_43796399/article/details/161852577 ↩︎
CSDN. “一天一个开源项目：UI-TARS-Desktop”. 2026年5月11日. https://blog.csdn.net/chendongqi2007/article/details/160992824 ↩︎
ByteDance. “UI-TARS-desktop README - Installation”. https://github.com/bytedance/UI-TARS-desktop#readme ↩︎
腾讯网. “豆包手机核心技术UI-TARS开源桌面版”. 2026年2月11日. https://new.qq.com/rain/a/20260211A04OE100 ↩︎
CSDN. “小白必看!UI-TARS-desktop保姆级安装与使用指南”. 2026年2月21日. https://blog.csdn.net/weixin_34547628/article/details/157158426 ↩︎

原文链接： https://www.17you.com/tool/ui-tars-desktop-guide/ 已复制！

脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我

UI-TARS-Desktop：字节开源桌面自动化 Agent，26K Stars 的 Claude Computer Use 替代品

告别RPA脚本，说人话就能操控电脑

它跟我们熟知的Claude Computer Use有什么不同？

核心架构：看、想、做、记

桌面端的完整Agent栈

快速上手

能做什么？能做的还挺多

但它的限制也要讲清楚

开源Agent的新范式

📖 延伸阅读

相关内容

目录