AgentIndex icon
AgentIndex
工具分类热门最新对比
提交工具
首页/
Browser Automation/
gemini-skill
gemini-skill logo

gemini-skill

活跃·★ 822·更新于 2026-05-29
★ 视觉/多模态★ 浏览器自动化

通过 CDP(Chrome DevTools Protocol)操控 Gemini 网页版(gemini.google.com),实现 AI 生图、对话、图片提取等自动化操作。

Gemini Skill 通过 CDP 自动化操作 Gemini 网页版,支持 AI 生图、多轮对话、图片上传与提取、会话管理,并提供 MCP 服务器以便 AI 客户端集成。系统采用守护进程架构高效管理浏览器进程。

#自动化#drawing#Gemini#MCP 协议#MCP 客户端#MCP 服务器#MCP 服务器#openclaw
$ 安装
$ git clone https://github.com/WJZ-P/gemini-skill.git && cd gemini-skill && npm install
↗ 访问官网★ GitHub
01

功能特性

01根据 prompt 自动生成图片并支持高清原图下载
02与 Gemini 进行多轮文本对话
03上传参考图片以生成新图
04从会话中提取图片(base64 和 CDP 完整尺寸)
05会话管理(新建、临时、切换模型、导航历史)
02

兼容性

Windows
Windows
已通过文档验证
macOS
macOS
已通过文档验证
Linux
Linux
已通过文档验证
03

快速开始

1
$ git clone https://github.com/WJZ-P/gemini-skill.git
2
$ cd gemini-skill
3
$ npm install
04

使用场景

↳通过 AI 对话自动生成游戏风格表情包
↳与 Gemini 进行多轮对话以获取信息
↳上传参考图片让 Gemini 生成新的变体
05

同类工具

CopilotKit logo
CopilotKit★ 31.8k
CopilotKit 是一个开源开发工具包,旨在帮助您在Web应用程序中构建和部署深度集成的AI助手和智能体,提供快速集成、框架无关性和生产就绪的UI。
vs →
mcp-chrome logo
mcp-chrome★ 11.8k
将您的Chrome浏览器变成智能助手,让AI掌控浏览器,实现强大的自动化功能。
vs →
budibase logo
budibase★ 28.0k
Budibase是一个开源的低代码平台,帮助工程师安全、快速地构建表单、门户和审批应用。
vs →
fastmcp logo
fastmcp★ 25.4k
FastMCP 是一个用于连接大型语言模型 (LLM) 到工具和数据的 Python 框架,旨在简化从原型到生产的 MCP (Model Context Protocol) 应用开发。
vs →
FunASR logo
FunASR★ 16.6k
FunASR 是一个基础的端到端语音识别工具包,提供工业级的语音识别能力,比 Whisper 快 170 倍,并支持 50 多种语言。
vs →
nuclear logo
nuclear★ 17.7k
Nuclear是一款免费、开源、无广告和无追踪的音乐播放器,支持搜索歌曲、创建播放列表并在Windows、macOS和Linux上运行。
vs →
semble logo
semble★ 4.5k
Semble 是一个为智能体(agents)构建的快速准确的代码搜索库。
vs →
csharp-sdk logo
csharp-sdk★ 4.3k
MCP C# SDK 是 Model Context Protocol 的官方 C# SDK,使 .NET 应用程序、服务和库能够实现并与 MCP 客户端和服务器进行交互。
vs →
查看全部替代品 →

相关搜索

gemini-skill 替代工具最佳 Browser Automation 工具 2026开源 Browser Automationgemini-skill 教程gemini-skill 对比automationdrawinggemini

评论

登录后发表评论
  • Jesse Chen
    Jesse Chen2026年5月23日

    Works surprisingly well on Node 18+ setups. The browser automation side of it is remarkably stable.

  • O
    Oakley Zhang2026年4月9日

    Used this to let an LLM agent draw mockups directly in a headless browser while iterating on UI feedback.

  • J
    Justice Garcia2026年3月13日

    Is there support for rendering SVG outputs directly, or does it always go through the canvas element?

本页内容
01功能特性02兼容性03快速开始04使用场景05同类工具
统计
GitHub Stars★ 822
最后更新1天前
状态活跃
许可证—
分类浏览器自动化
热度趋势 (30d)
+32.8↑ 0.9%
链接
文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit

Ad
© 2026 AgentIndex.app|由十年 iOS 开发者构建。
QYSGitHub请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。