🔥 核心概念:2024年底至2026年,AI Agent领域最火的两个方向非Computer Use(计算机使用) 和 Browser Use(浏览器使用) 莫属。前者让AI像人一样操作整个电脑桌面,后者让AI像用户一样浏览和操作网页。Browser Use开源项目(97,055 Star)已成为全球最受欢迎的AI Agent工具之一,Computer Use相关项目(cua 17,601 Star、UI-TARS 36,017 Star)也在飞速增长。AI Agent从"纸上谈兵"到"动手干活",形象理解就是——Computer Use像给AI装了一双手,Browser Use像给AI装了一双眼睛和一个浏览器。
📜 一、概念起源:Browser Use与Computer Use的前世今生
Browser Use的诞生
Browser Use的概念最早可以追溯到2024年,当时AI Agent主要停留在"对话"层面——用户输入文本,AI返回文本。但开发者很快发现:让AI只能聊天就像让人类只能写作却不能上网查资料。
2024年10月,开源项目 browser-use 在GitHub上发布,定位极其精准——"让网站对AI Agent可访问"。它通过让AI Agent控制无头浏览器,实现了网页内容的自动获取、表单填写、数据提取等操作。
从2024年10月至今,browser-use从0增长到97,055 Star,成为全球最受欢迎的AI Agent工具之一。这背后的驱动力非常简单:网页是AI Agent获取实时信息最丰富、最直接的渠道。 任何需要联网查询、数据采集、网页交互的AI任务,都需要Browser Use能力。
Computer Use的里程碑
Computer Use的概念爆发于2025年初。它的核心思想更进一步:让AI Agent不仅会浏览网页,还能像人类一样操作整个操作系统——点击桌面图标、打开应用程序、拖拽文件、使用快捷键、操作GUI界面。
关键里程碑:

🎯 二、两者的核心区别与联系
Browser Use Agent:让AI拥有"浏览能力"
核心能力:
操控无头或可见浏览器
访问URL、点击链接、填写表单
提取页面结构化数据
管理Cookie和会话
执行JavaScript
截取网页截图并分析
解决的问题:
AI Agent需要实时、准确的联网信息
传统REST API覆盖不到的场景(需要登录、动态内容、反爬机制的网站)
自动化网页操作(数据采集、表单提交、内容管理)
代表性项目:
Computer Use Agent:让AI拥有"动手能力"
核心能力:
获取操作系统桌面截图
解析屏幕上的UI元素
生成鼠标点击、键盘输入等操作指令
跨应用操作(从浏览器拖到桌面应用)
识别桌面上的所有软件界面
解决的问题:
AI Agent需要操作非浏览器的桌面应用(IDE、设计软件、办公套件)
需要跨应用协作的复杂工作流(从浏览器下载数据→导入Excel→生成图表→附加到邮件)
传统API无法覆盖的桌面端自动化场景
代表性项目:
区别与联系一张表
两者的关系不是"二选一",而是"叠加态":一个完整的AI Agent应该同时具备Browser Use和Computer Use能力。当需要查资料时,用Browser Use打开网页;当需要把数据录入到本地Excel时,用Computer Use操作桌面应用。
🔥 三、为什么这两年突然火爆?
原因一:AI Agent从"对话"进化到"执行"
2024年之前,大模型的能力集中在"理解"和"生成"上。2024年底开始,Agent框架(Claude Code、OpenClaw、Hermes Agent)让AI能够调用工具、执行代码、完成任务。但工具调用只能操作API——如果某个服务没有API,AI就无能为力了。
Browser Use和Computer Use完美填补了这个缺口:不需要API,模拟人类操作即可。 这让AI Agent的"可执行范围"从"API覆盖的世界"扩展到"整个人类操作的世界"。
原因二:开源社区的密集创新
2024年10月至2026年6月,短短20个月内,Browser Use + Computer Use相关项目累计获得了超过20万GitHub Star。browser-use的97K Star让它跻身GitHub全球最受欢迎项目前列。字节开源的UI-TARS也达到36K Star。这些开源项目的快速迭代反过来又推动了整个赛道的发展。
原因三:视觉AI的成熟
Computer Use的关键瓶颈曾经是屏幕识别精度。但随着多模态大模型的成熟(GPT-4V、Claude Vision、Gemini Vision等),AI对截图的理解能力大幅提升——它们能准确识别按钮、文本框、下拉菜单,并理解屏幕上发生的事情。视觉能力的突破,直接推动了Computer Use的可用性。
🔗 四、关联技术名词解析
MCP(Model Context Protocol) —— AI Agent与外部工具交互的标准协议。与Browser/Computer Use的关系是:MCP定义了Agent如何调用工具,而Browser/Computer Use是这些工具中的"超级工具"。
CUA(Computer Use Agent) —— 特指专注于计算机桌面操作的Agent框架。cua项目(trycua/cua,17,601 Star)是这方面的开源标杆。
UI-TARS —— 字节跳动开源的多模态Agent栈,纯视觉驱动,支持在桌面上完成复杂操作任务(36,017 Star)。
RPA(Robotic Process Automation) —— 2010年代兴起的机器人流程自动化技术。与Computer Use类似但不相同:RPA通过录制宏和固定规则操作,Computer Use通过AI实时理解屏幕并生成操作,更灵活、更智能化。
CDP(Chrome DevTools Protocol) —— Browser Use Agent操控浏览器的底层协议。大部分Browser Use实现基于CDP或Playwright(封装了CDP)。
Playwright —— 微软开源的浏览器自动化框架。browser-use等项目的底层依赖。
Agent-Harness —— AI Agent的运行框架(如Hermes Agent、Claude Code、OpenClaw),负责调度工具。Browser Use和Computer Use是Harness可以调用的工具集。

🚀 五、应用场景
🔭 六、未来方向
1. 从"模拟"到"理解" —— 当前的Browser/Computer Use更多是"模拟人类操作",未来将进化为"理解任务意图后自主规划操作路径"。Agent-S等框架已经在探索"像人类一样思考"的Agent模式。
2. 安全与可控性 —— 让AI直接操作电脑和浏览器存在安全风险。未来会有更完善的沙箱机制、操作审计、权限控制。
3. Apple Shortcuts式的体验 —— 最终用户可能不需要理解Browser Use和Computer Use的区别,就像不需要理解HTTP和TCP的区别一样——"告诉AI做什么",它自动选择用哪个方式完成。
4. 与Hermes Agent的深度整合 —— 主流Agent框架(Hermes Agent、Claude Code、OpenClaw)都已经或即将深度集成Browser/Computer Use能力,让这些能力成为Agent的默认技能。
📌 一张表总结
Browser Use和Computer Use的核心意义在于:它们打破了AI Agent只能与文本和API交互的"虚拟天花板",让AI Agent拥有了与真实物理世界(的数字化界面)交互的能力。 当AI不仅能"想"还能"操作"时,它的能力边界就从"顾问"扩展到了"执行者"。这或许是2024-2026年AI Agent生态中最具实际价值的进化。
原文链接
欢迎访问 小易撩挨踢