pdf-mcp
活跃·★ 45·MIT·更新于 2026-05-29
★ 时下流行★ 代码助手★ RAG / 知识库
一个AI代理可以读取、搜索和提取PDF文件内容的模型上下文协议(MCP)服务器。
pdf-mcp是一个模型上下文协议(MCP)服务器,使AI代理能够读取、搜索和提取PDF文件内容。它使用PyMuPDF解析PDF,SQLite持久缓存,支持结合BM25关键词和语义嵌入的混合搜索、扫描文档的OCR以及表格和图片的结构化提取。
#代理式 AI#人工智能#Claude#codex-cli#Copilot#document-processing#大语言模型#MCP 协议
01
功能特性
01混合搜索(BM25关键词+语义嵌入),采用倒数排名融合
02分页读取,避免上下文溢出
03通过Tesseract支持扫描和基于图像的PDF的OCR
04表格、图片和目录的结构化提取
05持久化SQLite缓存,自动失效
02
兼容性
Claude Code
Claude Code
已通过文档验证
Claude Desktop
Claude Desktop
已通过文档验证
Visual Studio Code
VS Code
已通过文档验证
Codex CLI
Codex CLI
已通过文档验证
Kiro
Kiro
已通过文档验证
03
快速开始
1
$ pip install pdf-mcp
04
使用场景
↳高效读取和分析大型PDF文档,而不超出上下文限制
↳使用自然语言在PDF中搜索特定内容或概念
↳从PDF中提取结构化数据,如表格和图片
05
同类工具
相关搜索
评论
登录后发表评论
- JJamie Harris2026年5月5日
Good for research workflows where Claude needs to process many large documents efficiently
- Quinn Kim2026年4月29日
Reading large PDFs without hitting context limits is a practical problem well solved here
- SSage Garcia2026年4月23日
The chunking approach handles technical papers and long documents reliably
- SSpencer Zhang2026年4月14日
Used for automated literature review workflows, PDF parsing accuracy is high