AgentIndex icon
AgentIndex
工具分类热门最新对比
提交工具
首页/
Vision / Multimodal/
UI-TARS-desktop
UI-TARS-desktop logo

UI-TARS-desktop

活跃·★ 35.7k·Apache-2.0·更新于 2026-05-18
★ 最受欢迎★ 时下流行★ 必备神器

UI-TARS Desktop 是一款基于 UI-TARS 模型,提供原生 GUI Agent 能力的桌面应用程序。

UI-TARS Desktop 是 TARS 多模态 AI 智能体技术栈的桌面应用组件,通过截图理解屏幕内容并与计算机 GUI 交互,支持执行 Shell 命令和浏览器工具,集成 MCP 扩展 Agent 能力。

#GUI 代理#桌面应用#多模态 AI#自动化#跨平台
$ 安装
$ npx @agent-tars/cli@latest
↗ 访问官网★ GitHub
01

功能特性

01原生 GUI 智能体,通过截图理解屏幕并与桌面应用交互
02多模态 LLM 驱动的任意 UI 视觉理解
03内置浏览器自动化和 Shell 命令执行
04MCP 集成,通过自定义工具扩展 Agent 能力
05跨平台桌面应用,提供 Web UI 选项
02

兼容性

macOS
支持
已通过文档验证
Windows
支持
已通过文档验证
Linux
支持
已通过文档验证
03

快速开始

1
$ npx @agent-tars/cli@latest
04

使用场景

↳通过视觉点击无 API 的桌面 GUI 工作流自动化
↳构建结合屏幕理解、网页和文件操作的多模态 Agent
↳通过自然语言指令在桌面执行 AI 辅助计算机任务
05

同类工具

ragflow logo
ragflow★ 81.5k
RAGFlow 是一个领先的开源检索增强生成 (RAG) 引擎,它融合了前沿的RAG与Agent能力,为大型语言模型提供卓越的上下文层,并简化企业级RAG工作流。
vs →
n8n logo
n8n★ 190.2k
n8n是一个工作流自动化平台,为技术团队提供了代码的灵活性和无代码的速度,拥有400多个集成和原生的AI能力。
vs →
GitHub MCP Server logo
GitHub MCP Server★ 30.3k
GitHub MCP 服务器将AI工具直接连接到GitHub平台,使AI代理、助手和聊天机器人能够通过自然语言交互管理GitHub资源和自动化工作流。
vs →
Gemini CLI logo
Gemini CLI★ 104.7k
Gemini CLI 是一个开源的 AI 代理,将 Gemini 的强大功能直接带入您的终端,提供轻量级访问,让您的提示能够最直接地到达模型。
vs →
awesome-n8n-templates logo
awesome-n8n-templates★ 22.6k
该仓库收集了来自互联网的n8n自动化模板,旨在简化各类任务和工作流程的自动化。
vs →
keep logo
keep★ 11.9k
Keep是一个开源的AIOps和告警管理平台,用于统一和智能地处理所有告警和事件。
vs →
claude-code-guide logo
claude-code-guide★ 4.2k
此README为Claude Code提供了全面的指南,涵盖安装、配置、高级功能和故障排除。
vs →
open-claude-cowork logo
open-claude-cowork★ 4.2k
Open Claude Cowork 是一个由Claude Agent SDK和Composio工具路由器驱动的开源桌面聊天应用。
vs →
查看全部替代品 →

相关搜索

UI-TARS-desktop 替代工具最佳 Vision / Multimodal 工具 2026开源 Vision / MultimodalUI-TARS-desktop 教程UI-TARS-desktop 对比GUI AgentDesktop AppMultimodal AI

评论

登录后发表评论
  • R
    Remy Rivera2026年5月25日

    Good for building desktop AI assistants that can see and interact with any application.

  • J
    Jordan Martinez2026年4月23日

    Handles the model integration complexity so you focus on task definition.

  • P
    Parker Thompson2026年3月28日

    Open-source foundation means you're not locked into proprietary automation platforms.

  • L
    Logan Anderson2026年3月21日

    Multimodal AI agent stack that connects cutting-edge models to desktop automation.

本页内容
01功能特性02兼容性03快速开始04使用场景05同类工具
统计
GitHub Stars★ 35.7k
最后更新1周前
状态活跃
许可证Apache-2.0
分类视觉/多模态
热度趋势 (30d)
+1.4k↑ 4.8%
链接
文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit

Ad
© 2026 AgentIndex.app|由十年 iOS 开发者构建。
QYSGitHub请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。