AgentIndex icon
AgentIndex
工具分类热门最新对比
提交工具
首页/
Vision / Multimodal/
Screenhand
Screenhand logo

Screenhand

活跃·★ 8·AGPL-3.0·更新于 2026-04-02
★ 时下流行★ 浏览器自动化★ 工作流自动化

ScreenHand 是一个开源的 MCP 服务器,为 macOS 和 Windows 平台上的 AI 助手提供快速、原生的桌面控制,通过辅助功能/UI 自动化、OCR 和 Chrome DevTools 协议实现。

ScreenHand 是一个开源的 MCP 服务器,为 macOS 和 Windows 上的 AI 代理提供原生桌面控制。它整合了辅助功能API、UI自动化、OCR和Chrome DevTools协议,以实现与应用程序和浏览器的快速、强大的交互,包括多智能体协调和后台作业处理。

#桌面自动化#AI集成
© 2026 AgentIndex.app|由十年 iOS 开发者构建。
QYSGitHub请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。

#UI自动化
#辅助功能
#光学字符识别
#Chrome开发者工具协议
#多智能体
#任务自动化
$ 安装
$ git clone https://github.com/manushi4/screenhand.git && cd screenhand && npm install && npm run build:native
↗ 访问官网★ GitHub
01

功能特性

01通过辅助功能/UI 自动化实现 macOS 和 Windows 的原生 UI 控制。
02通过 DevTools 协议实现后台 Chrome 浏览器控制。
03包含82个工具的广泛工具集,用于跨应用自动化和数据提取。
04通过会话租约和停滞检测实现多智能体协调。
05持久化学习记忆和后台作业处理守护程序。
02

兼容性

macOS
平台
已通过文档验证
Windows
平台
已通过文档验证
Node.js
运行时
已通过文档验证
MCP Clients
集成
已通过文档验证
Claude Desktop
AI客户端
已通过文档验证
Cursor
AI客户端
已通过文档验证
03

快速开始

1
$ git clone https://github.com/manushi4/screenhand.git
2
$ cd screenhand
3
$ npm install
4
$ npm run build:native
04

使用场景

↳AI驱动的桌面应用程序UI调试和检查。
↳通过 Chrome CDP 自动化浏览器任务,如填写表单、数据抓取和执行JavaScript。
↳通过在不同桌面应用之间串联操作来创建跨应用工作流。
↳协调多个AI智能体同时控制不同的应用程序窗口,避免冲突。
↳使用工作守护程序在后台持续处理多步自动化作业。
05

同类工具

ragflow logo
ragflow★ 81.5k
RAGFlow 是一个领先的开源检索增强生成 (RAG) 引擎,它融合了前沿的RAG与Agent能力,为大型语言模型提供卓越的上下文层,并简化企业级RAG工作流。
vs →
n8n logo
n8n★ 190.2k
n8n是一个工作流自动化平台,为技术团队提供了代码的灵活性和无代码的速度,拥有400多个集成和原生的AI能力。
vs →
cua logo
cua★ 17.3k
Cua是一个开源平台,用于构建、基准测试和部署能够操作任何计算机的智能体,并提供隔离的、可自托管的沙盒环境(Docker、QEMU、Apple Vz)。
vs →

相关搜索

Screenhand 替代工具最佳 Vision / Multimodal 工具 2026开源 Vision / MultimodalScreenhand 教程Screenhand 对比Desktop AutomationAI IntegrationUI Automation

评论

登录后发表评论
  • J
    Jamie Martinez2026年5月22日

    More reliable than screenshot-based approaches for detecting UI state changes

  • J
    Jamie Zhang2026年4月2日

    Used for UI automation testing workflows that require actual screen interaction

  • R
    Rowan Kim2026年3月22日

    Open eyes and hands for desktop automation via MCP is powerful for automation use cases

  • D
    Dylan Wilson2026年3月15日

    The open-source approach means you can audit exactly what the AI agent is doing on screen

本页内容
01功能特性02兼容性03快速开始04使用场景05同类工具
统计
GitHub Stars★ 8
最后更新1个月前
mcp-context-forge logo
mcp-context-forge★ 3.8k
一个模型上下文协议网关与代理,它通过联邦、虚拟服务器、重试、安全和可选的管理UI来统一REST、MCP和A2A服务。
vs →
MCP-Chinese-Getting-Started-Guide logo
MCP-Chinese-Getting-Started-Guide★ 3.5k
模型上下文协议(MCP)是一个创新的开源协议,旨在标准化大语言模型与外部数据源和工具的交互,实现信息的无缝访问和处理。
vs →
cursor-talk-to-figma-mcp logo
cursor-talk-to-figma-mcp★ 6.8k
该项目实现了Cursor AI与Figma之间的模型上下文协议(MCP)集成,使Cursor能够与Figma通信,以编程方式读取和修改设计。
vs →
XcodeBuildMCP logo
XcodeBuildMCP★ 5.8k
一个模型上下文协议 (MCP) 服务器,提供与AI助手和其他MCP客户端集成的Xcode相关工具。
vs →
google_workspace_mcp logo
google_workspace_mcp★ 2.5k
通过所有MCP客户端、AI助手和开发者工具,实现对Google日历、云端硬盘、Gmail、文档、表格、幻灯片、表单、任务和聊天的完全自然语言控制。
vs →
查看全部替代品 →
状态活跃
许可证AGPL-3.0
分类视觉/多模态
热度趋势 (30d)
+0.3↑ 0.5%
链接
文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit

Ad