易君召
易君召
发布于 2026-06-04 / 3 阅读
0
0

Computer Use vs Browser Use Agent:AI从"聊天"到"动手"的进化

#AI

🔥 核心概念:2024年底至2026年,AI Agent领域最火的两个方向非Computer Use(计算机使用)Browser Use(浏览器使用) 莫属。前者让AI像人一样操作整个电脑桌面,后者让AI像用户一样浏览和操作网页。Browser Use开源项目(97,055 Star)已成为全球最受欢迎的AI Agent工具之一,Computer Use相关项目(cua 17,601 Star、UI-TARS 36,017 Star)也在飞速增长。AI Agent从"纸上谈兵"到"动手干活",形象理解就是——Computer Use像给AI装了一双手,Browser Use像给AI装了一双眼睛和一个浏览器。

📜 一、概念起源:Browser Use与Computer Use的前世今生

Browser Use的诞生

Browser Use的概念最早可以追溯到2024年,当时AI Agent主要停留在"对话"层面——用户输入文本,AI返回文本。但开发者很快发现:让AI只能聊天就像让人类只能写作却不能上网查资料。

2024年10月,开源项目 browser-use 在GitHub上发布,定位极其精准——"让网站对AI Agent可访问"。它通过让AI Agent控制无头浏览器,实现了网页内容的自动获取、表单填写、数据提取等操作。

从2024年10月至今,browser-use从0增长到97,055 Star,成为全球最受欢迎的AI Agent工具之一。这背后的驱动力非常简单:网页是AI Agent获取实时信息最丰富、最直接的渠道。 任何需要联网查询、数据采集、网页交互的AI任务,都需要Browser Use能力。

Computer Use的里程碑

Computer Use的概念爆发于2025年初。它的核心思想更进一步:让AI Agent不仅会浏览网页,还能像人类一样操作整个操作系统——点击桌面图标、打开应用程序、拖拽文件、使用快捷键、操作GUI界面。

关键里程碑:

时间

事件

2024年10月

Anthropic Claude 3.5 Sonnet首次展示"Computer Use"能力——AI直接操作桌面环境截图并生成鼠标/键盘操作指令

2025年1月

字节跳动开源UI-TARS(36,017 Star),纯视觉驱动的桌面Agent

2025年1月

cua(Computer Use Agent)项目发布(17,601 Star),开源基础设施

2025年

Agent-S(11,760 Star)、Bytebot(11,039 Star)等项目涌现

2026年

几乎所有主流AI Agent框架都已集成Computer Use能力

🎯 二、两者的核心区别与联系

Browser Use Agent:让AI拥有"浏览能力"

核心能力:

  • 操控无头或可见浏览器

  • 访问URL、点击链接、填写表单

  • 提取页面结构化数据

  • 管理Cookie和会话

  • 执行JavaScript

  • 截取网页截图并分析


解决的问题:

  • AI Agent需要实时、准确的联网信息

  • 传统REST API覆盖不到的场景(需要登录、动态内容、反爬机制的网站)

  • 自动化网页操作(数据采集、表单提交、内容管理)


代表性项目:

项目

Star

特点

browser-use

97,055

最成熟的开源方案,市场首选

browser-harness

14,312

自愈合浏览器操控框架

nanobrowser

13,080

Chrome扩展方式,轻量级

openagent

5,143

集成Browser+Computer双能力

Computer Use Agent:让AI拥有"动手能力"

核心能力:

  • 获取操作系统桌面截图

  • 解析屏幕上的UI元素

  • 生成鼠标点击、键盘输入等操作指令

  • 跨应用操作(从浏览器拖到桌面应用)

  • 识别桌面上的所有软件界面


解决的问题:

  • AI Agent需要操作非浏览器的桌面应用(IDE、设计软件、办公套件)

  • 需要跨应用协作的复杂工作流(从浏览器下载数据→导入Excel→生成图表→附加到邮件)

  • 传统API无法覆盖的桌面端自动化场景


代表性项目:

项目

Star

特点

UI-TARS-desktop(字节跳动)

36,017

多模态AI Agent栈,纯视觉驱动

cua(Computer Use Agent)

17,601

开源基础设施,沙箱+SDK+基准

Agent-S

11,760

模仿人类操作习惯的Agent框架

Bytebot

11,039

自托管桌面Agent

区别与联系一张表

维度

Browser Use

Computer Use

操作范围

浏览器内部

整个操作系统桌面

技术原理

通过浏览器控制API(CDP/Playwright)

截图分析+鼠标键盘模拟

实现难度

较低(浏览器有标准控制协议)

较高(需识别任意GUI)

精度

高(DOM直接交互)

中(依赖截图+视觉识别)

跨应用能力

❌ 仅浏览器内

✅ 任意桌面应用

代表项目

browser-use(97K Star)

UI-TARS(36K)/ cua(17K)

适合场景

网页数据采集/自动化测试

桌面软件操作/跨应用工作流


两者的关系不是"二选一",而是"叠加态":一个完整的AI Agent应该同时具备Browser Use和Computer Use能力。当需要查资料时,用Browser Use打开网页;当需要把数据录入到本地Excel时,用Computer Use操作桌面应用。

🔥 三、为什么这两年突然火爆?

原因一:AI Agent从"对话"进化到"执行"

2024年之前,大模型的能力集中在"理解"和"生成"上。2024年底开始,Agent框架(Claude Code、OpenClaw、Hermes Agent)让AI能够调用工具、执行代码、完成任务。但工具调用只能操作API——如果某个服务没有API,AI就无能为力了。

Browser Use和Computer Use完美填补了这个缺口:不需要API,模拟人类操作即可。 这让AI Agent的"可执行范围"从"API覆盖的世界"扩展到"整个人类操作的世界"。

原因二:开源社区的密集创新

2024年10月至2026年6月,短短20个月内,Browser Use + Computer Use相关项目累计获得了超过20万GitHub Star。browser-use的97K Star让它跻身GitHub全球最受欢迎项目前列。字节开源的UI-TARS也达到36K Star。这些开源项目的快速迭代反过来又推动了整个赛道的发展。

原因三:视觉AI的成熟

Computer Use的关键瓶颈曾经是屏幕识别精度。但随着多模态大模型的成熟(GPT-4V、Claude Vision、Gemini Vision等),AI对截图的理解能力大幅提升——它们能准确识别按钮、文本框、下拉菜单,并理解屏幕上发生的事情。视觉能力的突破,直接推动了Computer Use的可用性。

🔗 四、关联技术名词解析

  • MCP(Model Context Protocol) —— AI Agent与外部工具交互的标准协议。与Browser/Computer Use的关系是:MCP定义了Agent如何调用工具,而Browser/Computer Use是这些工具中的"超级工具"。

  • CUA(Computer Use Agent) —— 特指专注于计算机桌面操作的Agent框架。cua项目(trycua/cua,17,601 Star)是这方面的开源标杆。

  • UI-TARS —— 字节跳动开源的多模态Agent栈,纯视觉驱动,支持在桌面上完成复杂操作任务(36,017 Star)。

  • RPA(Robotic Process Automation) —— 2010年代兴起的机器人流程自动化技术。与Computer Use类似但不相同:RPA通过录制宏和固定规则操作,Computer Use通过AI实时理解屏幕并生成操作,更灵活、更智能化

  • CDP(Chrome DevTools Protocol) —— Browser Use Agent操控浏览器的底层协议。大部分Browser Use实现基于CDP或Playwright(封装了CDP)。

  • Playwright —— 微软开源的浏览器自动化框架。browser-use等项目的底层依赖。

  • Agent-Harness —— AI Agent的运行框架(如Hermes Agent、Claude Code、OpenClaw),负责调度工具。Browser Use和Computer Use是Harness可以调用的工具集。

🚀 五、应用场景

场景

适用类型

说明

网页数据采集

Browser Use

绕过反爬机制,模拟登录获取数据

自动化测试

Browser Use

端到端网页测试,替代Selenium

桌面办公自动化

Computer Use

自动填表、数据录入、报告生成

跨应用工作流

Computer Use+Browser Use

从网页下载数据→导入桌面软件处理

软件操作演示

Computer Use

AI自动生成软件操作教程

竞品分析

Browser Use

自动访问竞品网站并提取信息

🔭 六、未来方向

1. 从"模拟"到"理解" —— 当前的Browser/Computer Use更多是"模拟人类操作",未来将进化为"理解任务意图后自主规划操作路径"。Agent-S等框架已经在探索"像人类一样思考"的Agent模式。

2. 安全与可控性 —— 让AI直接操作电脑和浏览器存在安全风险。未来会有更完善的沙箱机制、操作审计、权限控制。

3. Apple Shortcuts式的体验 —— 最终用户可能不需要理解Browser Use和Computer Use的区别,就像不需要理解HTTP和TCP的区别一样——"告诉AI做什么",它自动选择用哪个方式完成。

4. 与Hermes Agent的深度整合 —— 主流Agent框架(Hermes Agent、Claude Code、OpenClaw)都已经或即将深度集成Browser/Computer Use能力,让这些能力成为Agent的默认技能。

📌 一张表总结

维度

Browser Use

Computer Use

形象比喻

给AI装一个浏览器

给AI装一双手

旗舰项目

browser-use(97K⭐)

UI-TARS(36K⭐)/cua(17K⭐)

技术原理

CDP/Playwright操控浏览器

截图+视觉识别+鼠标键盘模拟

局限

只能在浏览器内操作

精度受限于截图识别

未来方向

浏览器原生AI集成

操作系统级AI交互协议

Browser Use和Computer Use的核心意义在于:它们打破了AI Agent只能与文本和API交互的"虚拟天花板",让AI Agent拥有了与真实物理世界(的数字化界面)交互的能力。 当AI不仅能"想"还能"操作"时,它的能力边界就从"顾问"扩展到了"执行者"。这或许是2024-2026年AI Agent生态中最具实际价值的进化。


原文链接 https://www.yijunzhao.cn/archives/computer-use-vs-browser-use-agent

欢迎访问 小易撩挨踢

https://www.yijunzhao.cn/


评论