AgentIndex icon
AgentIndex
工具分类热门最新对比
提交工具
首页/
Vision / Multimodal/
ocr-mcp
ocr-mcp logo

ocr-mcp

活跃·★ 14·MIT·更新于 2026-05-28
★ 时下流行★ 工作流自动化★ RAG / 知识库

一个集成Web界面和MCP服务器的AI OCR工具。

OCR-MCP是一个完整的AI OCR网页应用和MCP服务器。它提供用于拖放OCR、扫描和批处理的Web界面,以及一个用于Claude、Cursor、Windsurf等智能IDE的FastMCP服务器。支持13种OCR引擎、WIA扫描仪、预处理和工作流管道。

#agentic-workflow#FastMCP#MCP 协议#MCP 服务器#MCP 服务器#OCR 识别
$ 安装
$ git clone https://github.com/sandraschi/ocr-mcp.git && cd ocr-mcp && uv sync
↗ 访问官网★ GitHub
01

功能特性

0113种OCR后端(PaddleOCR、Mistral OCR等)
02自动选择后端
03预处理(去歪斜、增强、裁剪)
04布局和表格提取
05批处理和管道处理
02

兼容性

Windows
Windows
已通过文档验证
Linux
Linux 和 macOS
已通过文档验证
macOS
Linux 和 macOS
已通过文档验证
03

快速开始

1
$ git clone https://github.com/sandraschi/ocr-mcp.git
2
$ cd ocr-mcp
3
$ uv sync
04

使用场景

↳将OCR功能集成到AI代理(Claude、Cursor)中
↳使用WIA扫描仪对扫描文档运行OCR
↳批量处理文档并转换为文本/PDF/JSON
05

同类工具

ragflow logo
ragflow★ 81.5k
RAGFlow 是一个领先的开源检索增强生成 (RAG) 引擎,它融合了前沿的RAG与Agent能力,为大型语言模型提供卓越的上下文层,并简化企业级RAG工作流。
vs →
n8n logo
n8n★ 190.2k
n8n是一个工作流自动化平台,为技术团队提供了代码的灵活性和无代码的速度,拥有400多个集成和原生的AI能力。
vs →
fastmcp logo
fastmcp★ 25.4k
FastMCP 是一个用于连接大型语言模型 (LLM) 到工具和数据的 Python 框架,旨在简化从原型到生产的 MCP (Model Context Protocol) 应用开发。
vs →
FunASR logo
FunASR★ 16.6k
FunASR 是一个基础的端到端语音识别工具包,提供工业级的语音识别能力,比 Whisper 快 170 倍,并支持 50 多种语言。
vs →
nuclear logo
nuclear★ 17.7k
Nuclear是一款免费、开源、无广告和无追踪的音乐播放器,支持搜索歌曲、创建播放列表并在Windows、macOS和Linux上运行。
vs →
semble logo
semble★ 4.5k
Semble 是一个为智能体(agents)构建的快速准确的代码搜索库。
vs →
csharp-sdk logo
csharp-sdk★ 4.3k
MCP C# SDK 是 Model Context Protocol 的官方 C# SDK,使 .NET 应用程序、服务和库能够实现并与 MCP 客户端和服务器进行交互。
vs →
fast-agent logo
fast-agent★ 3.8k
fast-agent 允许您在几分钟内创建和交互复杂的复合多模态智能体和工作流。
vs →
查看全部替代品 →

相关搜索

ocr-mcp 替代工具最佳 Vision / Multimodal 工具 2026开源 Vision / Multimodalocr-mcp 教程ocr-mcp 对比agentic-workflowfastmcpmcp

评论

登录后发表评论
  • S
    Spencer Brown2026年5月12日

    Current OCR models handle handwriting and complex layouts better than older tools.

  • Quinn Kim
    Quinn Kim2026年5月8日

    State-of-the-art OCR capabilities via FastMCP server — quality that matches commercial tools.

  • S
    Spencer Nguyen2026年4月25日

    Works with diverse document formats through a consistent MCP interface.

  • O
    Oaklyn Johnson2026年3月5日

    Good for AI workflows that need to extract text from images or scanned documents.

本页内容
01功能特性02兼容性03快速开始04使用场景05同类工具
统计
GitHub Stars★ 14
最后更新2天前
状态活跃
许可证MIT
分类视觉/多模态
热度趋势 (30d)
+0.5↑ 0.7%
链接
文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit

Ad
© 2026 AgentIndex.app|由十年 iOS 开发者构建。
QYSGitHub请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。