gemini-skill
活跃·★ 822·更新于 2026-05-29
★ 视觉/多模态★ 浏览器自动化
通过 CDP(Chrome DevTools Protocol)操控 Gemini 网页版(gemini.google.com),实现 AI 生图、对话、图片提取等自动化操作。
Gemini Skill 通过 CDP 自动化操作 Gemini 网页版,支持 AI 生图、多轮对话、图片上传与提取、会话管理,并提供 MCP 服务器以便 AI 客户端集成。系统采用守护进程架构高效管理浏览器进程。
#自动化#drawing#Gemini#MCP 协议#MCP 客户端#MCP 服务器#MCP 服务器#openclaw
01
功能特性
01根据 prompt 自动生成图片并支持高清原图下载
02与 Gemini 进行多轮文本对话
03上传参考图片以生成新图
04从会话中提取图片(base64 和 CDP 完整尺寸)
05会话管理(新建、临时、切换模型、导航历史)
02
兼容性
Windows
Windows
已通过文档验证
macOS
macOS
已通过文档验证
Linux
Linux
已通过文档验证
03
快速开始
1
$ git clone https://github.com/WJZ-P/gemini-skill.git
2
$ cd gemini-skill
3
$ npm install
04
使用场景
↳通过 AI 对话自动生成游戏风格表情包
↳与 Gemini 进行多轮对话以获取信息
↳上传参考图片让 Gemini 生成新的变体
05
同类工具
相关搜索
评论
登录后发表评论
- Jesse Chen2026年5月23日
Works surprisingly well on Node 18+ setups. The browser automation side of it is remarkably stable.
- OOakley Zhang2026年4月9日
Used this to let an LLM agent draw mockups directly in a headless browser while iterating on UI feedback.
- JJustice Garcia2026年3月13日
Is there support for rendering SVG outputs directly, or does it always go through the canvas element?