OpenClaw操作代理开源项目:本地运行AI自动执行Excel/PDF/邮件等桌面任务
摘要:OpenClaw:让AI从“动口”到“动手”ChatGPT 和 Claude 擅长写文案、解题、编逻辑——但它们不会点鼠标、不会切窗口、不会打开 Excel 并标红某几行。OpenClaw 会。它不生成建议,它直接执行。你让它“把销售表里 Q3 超过 80 万的客户名加粗并导出 PDF”,它就真去干:启动 Excel、定位 Sheet、筛选数据、加粗、导出、发邮件给你。OpenClaw 是什...

OpenClaw:让AI从“动口”到“动手”
ChatGPT 和 Claude 擅长写文案、解题、编逻辑——但它们不会点鼠标、不会切窗口、不会打开 Excel 并标红某几行。OpenClaw 会。
它不生成建议,它直接执行。你让它“把销售表里 Q3 超过 80 万的客户名加粗并导出 PDF”,它就真去干:启动 Excel、定位 Sheet、筛选数据、加粗、导出、发邮件给你。
OpenClaw 是什么
OpenClaw 是一个运行在本地的操作代理(operation agent)。它不是聊天界面背后的黑盒,而是一个能感知屏幕、操控输入、调用 API、读写文件的终端进程。核心不是“更聪明的语言模型”,而是把语言理解、动作规划、系统控制三者焊死在一起。
它怎么干活
OpenClaw 的操作引擎不依赖预设脚本或录制回放。它靠两件事落地:
- 视觉+语义对齐:用轻量 CV 模型实时解析屏幕内容(比如识别 Excel 窗口标题栏、按钮位置、表格边界),再和 NLU 解析出的指令意图对齐;
- 原子动作库:封装了
click_at(x,y),type_text("xxx"),read_cell("B5"),call_api("weather", {"city": "shanghai"})这类确定性动作,所有复杂任务都拆成这些原子操作串。
举几个真实能跑的例子:
截取当前网页顶部 600px 区域,保存为 /tmp/top.png
→ OpenClaw 识别浏览器窗口,计算视口坐标,调用截图工具,写文件。打开 ~/data/invoices.xlsx,把“状态”列里值为“pending”的整行背景设为黄色,另存为 invoices_pending_highlighted.xlsx
→ 启动 Excel(或用 openpyxl 后端),定位列,遍历匹配行,设样式,保存。查 Slack 中 #finance 频道今天提到“budget”的最新 3 条消息,提取发送人和时间,汇总成 Markdown 表格发我邮箱
→ 调 Slack API 获取消息,正则匹配,格式化,调 SMTP 发送。
典型工作流
- 日常办公提效
“整理上周五所有会议的 Zoom 录像链接,按时间排序,生成带标题的 Notion 页面”
→ OpenClaw 自动翻 Outlook 日历、查 Zoom 邮件、提取链接、调 Notion API 创建页面。 - RPA 场景免编码
传统 RPA 要拖拽组件、写 XPath、处理弹窗异常。OpenClaw 接收自然语言后,自己做元素定位、容错重试、状态判断。比如:“登录 SAP GUI,进事务码 VA03,输订单号 123456,截图‘抬头’和‘行项目’两个标签页”。它真能完成。 - 客服后台辅助
用户在工单系统里写:“客户说收不到发票,查他邮箱是否在黑名单”。OpenClaw 直接连内部邮件网关 API 查记录,再查 CRM 里的客户邮箱字段,比对后返回结论。 - 数据分析闭环
“拉出上月 AWS 账单里 EC2 成本最高的 5 个区域,画柱状图,贴进周报 PPT 第 3 页”
→ 调 AWS Cost Explorer API → pandas 处理 → matplotlib 画图 → python-pptx 插入幻灯片。
当前状态(2026)
- 平台支持:Windows/macOS/Linux 均提供原生二进制,无虚拟机或容器依赖;macOS 版通过 Accessibility API 控制 UI,Windows 版用 UI Automation,Linux 版基于 X11/Wayland + OCR 补位。
- 集成能力:内置连接器覆盖 Google Workspace、Microsoft Graph、Slack、Notion、Jira、Salesforce、SAP GUI、MySQL/PostgreSQL、本地文件系统。API 调用全部走 OAuth2 或 token 管理,凭证不硬编码。
- 真实部署:1000+ 企业用户,集中在金融中后台(自动生成监管报表)、医疗 IT(自动同步 HIS 系统数据)、制造业 ERP(工单状态批量更新)等强流程场景。
- 国产生态协同:AutoClaw 在家庭 IoT 层做设备联动(如“把客厅空调调到 26℃ 并关掉书房灯”),NanoClaw 专注 Android 自动化(无障碍服务 + ADB 指令),OpenClaw 提供跨平台动作基座。三者共享同一套动作描述语言(ClawDSL),模块可互换。
技术栈拆解
OpenClaw 架构分四层,全部开源(Apache 2.0):
- NLU 层:微调的 TinyBERT + 指令模板匹配器,输出结构化动作意图(
{action: "find_in_excel", file: "~/data.xlsx", column: "status", value: "pending", style: "highlight_yellow"}) - Planner 层:基于 LLM 的轻量推理器(本地运行 Phi-3),把意图转为动作序列,并插入必要检查点(如“确认 Excel 已打开”、“等待单元格加载完成”)
- Executor 层:纯 Rust 编写,调系统 API、模拟输入、驱动浏览器(Playwright)、调用 CLI 工具。失败时自动降级(如 GUI 失败则切 CLI 模式)
- Feedback 层:操作完成后,截图关键帧、记录动作日志、生成自然语言摘要(“已标红 12 行,保存至 /tmp/highlighted.xlsx”),支持 CLI 输出或 Webhook 推送
它改变了什么
- 效率不是提升 20%,是消灭整类任务:财务每月初的对账、HR 的入职材料归档、运营的日报截图汇总——这些不再需要人盯流程。
- 自动化不再需要“懂技术”:业务人员直接写中文指令,IT 不用写脚本、不用维护 XPath、不用处理 UI 更新导致的 selector 失效。
- 协作方式变了:团队共享的不是文档,而是可复用的
.claw动作包(比如onboard_new_hire.claw),双击就能跑完整入职流程。 - 安全模型更可控:所有动作在本地执行,敏感数据不出内网;权限按动作粒度控制(如“只允许读 Excel,禁止写”),比给 AI 一个账号密码更细。
现在就能做什么
- 下载 openclaw.dev 的最新 release,解压即用(macOS/Windows 有图形配置向导)
- 写第一条指令:
openclaw run "截图当前桌面,保存为 ~/Desktop/screenshot.png" - 查看内置动作库:
openclaw list-actions - 改一个现有动作:
openclaw edit excel_highlight_rows(打开 YAML 配置,改字段名或阈值) - 用 Python 扩展:
pip install openclaw-sdk,调Agent().run("导出数据库表 users")
国产 Claws 项目也值得盯:AutoClaw 的 Home Assistant 插件已支持语音触发设备联动,NanoClaw 的 Android 测试框架正在被大厂用于 UI 自动化回归。它们和 OpenClaw 共享底层动作协议,未来一个指令能跨 PC、手机、家电执行。