UI-TARS-Desktop:字节开源桌面自动化 Agent,26K Stars 的 Claude Computer Use 替代品

告别RPA脚本,说人话就能操控电脑

想象一个场景:你想把最近一周的邮件附件全部下载、压缩、上传到云盘。正常情况下,你要打开邮箱→逐个下载→打开压缩软件→拖入文件→打开云盘→上传。运气好的话,5分钟搞定。

现在你对电脑说一句话:“帮我把这周所有邮件附件打包上传到网盘”,30秒后,完成了。

这不是科幻。字节跳动开源的 UI-TARS Desktop 已经做到了——26,685 stars1的GitHub仓库背后,是一套能让AI像人类一样"看懂屏幕内容并动手操作"的完整Agent框架。

它跟我们熟知的Claude Computer Use有什么不同?

Antrophic的Claude Computer Use开创了"语言模型操控电脑"这个品类,但有两个硬伤:必须联网、依赖闭源API

UI-TARS Desktop的答卷是:完全本地运行,模型无关(model-agnostic),Apache 2.0开源协议2

你可以接入GPT-4o、Claude 3.5 Sonnet、字节豆包4、通义千问——用你喜欢的任何多模态大模型驱动它。想完全离线?没问题,加载一个本地的Qwen3-4B视觉模型,它照样能跑。3

两者还有一个根本性的架构差异。Claude Computer Use是以截图+坐标的方式理解屏幕;UI-TARS Desktop的核心——UI-TARS视觉语言模型——经过了数十亿张GUI截图和操作轨迹的训练,能真正理解UI元素的语义4 它知道什么是"保存按钮"、什么是"搜索框",不是靠坐标匹配,而是靠视觉理解。

核心架构:看、想、做、记

UI-TARS Desktop将GUI Agent的工作拆成四个模块,统一到一个多模态LLM里:5

1
2
3
4
5
6
7
8
┌──────────────────────────────────────┐
│          UI-TARS Native MLLM          │
│                                       │
│  Perception ── Reasoning ── Action    │
│     (看)          (想)         (做)    │
│                Memory                 │
│                 (记)                  │
└──────────────────────────────────────┘
  • Perception(感知):直接处理屏幕截图,识别按钮、文本框、图标和布局,不需要OCR、不需要Accessibility API、不需要控件ID
  • Reasoning(推理):理解你的自然语言指令(“把这个表格的第3列删掉”),拆解成操作序列
  • Action(动作):精确模拟鼠标点击、键盘输入、拖拽——坐标粒度精细到像素级
  • Memory(记忆):在多步骤任务中保持状态,知道"刚才打开了什么窗口"“表单已经填到哪一步了”

这意味着它面对的是一个"真实世界"的桌面,不是为自动化特意准备的干净环境。窗口大小变了?按钮换了位置?它都能适应的,因为它理解的是"保存按钮"这个概念,而不是"第587像素×第342像素"这个坐标。

桌面端的完整Agent栈

UI-TARS Desktop不是单兵作战。它是TARS多模态AI Agent栈的一部分:6

组件定位入口
Agent TARS通用多模态AI Agent框架,集成GUI Agent + Vision + MCP工具链CLI + Web UI
UI-TARS Desktop原生桌面GUI Agent应用,面向终端用户Electron桌面应用

Agent TARS偏向开发者/自动化工程师,通过CLI集成MCP(Model Context Protocol)工具;UI-TARS Desktop偏向"开箱即用"的普通用户,装好Electron应用就能干活。

另外,UI-TARS Desktop内置了一套混合浏览器代理策略7 它同时使用视觉理解(看截图)和DOM接入(读网页结构),自动选择当前最有效的交互方式。对网页操作来说,这补上了纯视觉方案在复杂表单和多层弹窗场景下的短板。

快速上手

1
2
3
4
5
# 一键安装(macOS/Linux)
curl -fsSL https://raw.githubusercontent.com/bytedance/UI-TARS-desktop/main/scripts/install.sh | bash

# Windows PowerShell(管理员模式)
irm https://raw.githubusercontent.com/bytedance/UI-TARS-desktop/main/scripts/install.ps1 | iex

安装后需要配置至少一个大模型API:

  • 豆包(推荐):字节自家的多模态模型,亲儿子优化
  • OpenAI GPT-4o:通用性强
  • Anthropic Claude 3.5:界面理解细致
  • 本地模型:通过Ollama加载Qwen3-4B-VL等开源视觉模型,完全离线8

启动后的交互极简:一个浮窗,你说一句"帮我把桌面上的PDF全部打开转成图片",它就开始干活了——你甚至能看到鼠标自己在动。

能做什么?能做的还挺多

社区已经验证过的场景:9

日常自动化

  • “从财务报表里把Q2的数据提取出来,做成一个汇总表”
  • “帮我把这个Notion页面里的所有外部链接整理成书签”

软件测试

  • 一个指令跑完整个回归测试流程,不需要写Selenium脚本
  • UI变更后自动重新适配操作路径

RPA替代

  • 传统RPA方案依赖控件ID,界面一改就得重写脚本
  • UI-TARS靠视觉理解,控件换位置不影响

多应用串联

  • “先把Excel里的客人名单读出来,然后去Gmail给每个人发邀请函,同时在Notion更新参会状态”
  • 真正的跨应用自动化,不需要API、不需要插件

但它的限制也要讲清楚

模型能力是天花板。UI-TARS Desktop是一个Agent框架,不是一个AI模型。框架再好,最终看的是背后驱动模型是否足够聪明。用Qwen3-4B驱动和用GPT-4o驱动的体验差距很大——前者可能经常点错,后者基本指哪打哪。

操作速度不如脚本。每个"看→想→点"的循环大约需要2-5秒,比纯脚本慢一个数量级。它不是用来替代自动化脚本的,是用来解决"写脚本不值得但手动做又太烦"那类任务的。

截至2026年6月,Windows和macOS支持较好,Linux还在追赶。安装需要Node.js 18.17+和pnpm 8+,推荐16GB以上内存。10

开源Agent的新范式

UI-TARS Desktop的价值不止于工具本身。它展示了一种趋势:AI Agent正在从"API调用"进化到"直接操作图形界面"。

过去我们想让AI干活,得给每个应用写API集成。UI-TARS Desktop说:不需要,能看到的界面它就能操作。这套范式一旦成熟,将是应用集成的一次范式级简化——以后所有软件都自带Agent接口,因为Agent能通过界面直接和它们交互。

字节跳动把它全部开源(Apache 2.0),生态想象力还有很多。2

📖 延伸阅读

📰 自游人日报 2026.6.27


  1. ByteDance. “UI-TARS-desktop - GitHub Repository”. https://github.com/bytedance/UI-TARS-desktop ↩︎

  2. UI-TARS Desktop GitHub. “LICENSE file”. https://github.com/bytedance/UI-TARS-desktop/blob/main/LICENSE ↩︎ ↩︎

  3. CSDN. “UI-TARS-desktop 完整使用教程(2026最新版)”. 2026年5月24日. https://blog.csdn.net/weixin_44092861/article/details/161306601 ↩︎

  4. 搜狐. “字节跳动UI-TARS-1.5重磅发布”. 2025年5月5日. https://www.sohu.com/a/892158362_524624 ↩︎

  5. CSDN. “UI-TARS-desktop:原生多模态GUI Agent开源应用”. 2026年5月11日. https://blog.csdn.net/forcedregcsdn/article/details/160987466 ↩︎

  6. CSDN. “UI-TARS Desktop 安装、使用方法详细全解”. 2026年6月10日. https://blog.csdn.net/weixin_43796399/article/details/161852577 ↩︎

  7. CSDN. “一天一个开源项目:UI-TARS-Desktop”. 2026年5月11日. https://blog.csdn.net/chendongqi2007/article/details/160992824 ↩︎

  8. ByteDance. “UI-TARS-desktop README - Installation”. https://github.com/bytedance/UI-TARS-desktop#readme ↩︎

  9. 腾讯网. “豆包手机核心技术UI-TARS开源桌面版”. 2026年2月11日. https://new.qq.com/rain/a/20260211A04OE100 ↩︎

  10. CSDN. “小白必看!UI-TARS-desktop保姆级安装与使用指南”. 2026年2月21日. https://blog.csdn.net/weixin_34547628/article/details/157158426 ↩︎

原文链接: https://www.17you.com/tool/ui-tars-desktop-guide/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容