claude-video-vision
活跃·★ 700·MIT·更新于 2026-05-18
★ 视觉/多模态★ 开发者工具
赋予Claude观看和理解视频的能力。
这是一个Claude Code插件,赋予Claude观看和理解视频的能力。它通过ffmpeg提取视频帧,并通过多种后端(Gemini、本地Whisper或OpenAI)处理音频。Claude接收图像形式的帧以及带时间戳的音频转录,充当感知层。
#Claude Code#Claude Code 插件#ffmpeg#Gemini#MCP 协议#MCP 服务器#MCP 服务器#multimodal
01
功能特性
01多模态感知 — Claude直接查看视频帧并阅读带时间戳的音频转录
02灵活的后端 — 在云API或完全本地处理之间选择
03自适应提取 — Claude根据你的问题调整帧率、时间范围和分辨率
04自动安装 — Whisper模型在首次使用时自动下载
05交互式设置向导 — /setup-video-vision 引导你完成配置
02
兼容性
macOS
原生
已通过文档验证
Linux
支持
已通过文档验证
Windows
需要额外设置
已通过文档验证
03
快速开始
1
$ /plugin marketplace add https://github.com/jordanrendric/claude-video-vision
2
$ /plugin install claude-video-vision
04
使用场景
↳通过提供视频路径并可选提出具体问题来分析视频文件
↳从特定时间范围提取帧和音频以进行详细检查
↳通过自适应帧提取总结长讲座或演示
05
同类工具
相关搜索
评论
登录后发表评论
- RRiver White2026年5月24日
The multimodal audio integration works, but processing longer videos can take some time.
- EEmerson Patel2026年5月6日
This completely changes how I debug UI tests. Claude can actually see where the selector failed.
- JJustice Thompson2026年4月20日
Perfect for feeding Claude visual context from UI recordings to debug frontend glitch behaviors.
- PParker Davis2026年4月19日
Make sure you have ffmpeg installed globally, otherwise the frame extraction will fail silently.