kreuzberg
活跃·★ 8.4k·MIT·更新于 2026-05-29
★ 时下流行★ 必备神器
一个能从57+种文件格式中提取文本和元数据,生成嵌入向量,并以原生速度进行后处理,无需GPU的高性能工具。
Kreuzberg 是一个高性能、多语言库,旨在从57种以上文件格式中提取文本和元数据,并提供全面的OCR功能。它基于Rust核心构建,以原生速度处理数据,内存高效,并能生成嵌入向量而无需GPU,使其在各种数据提取和处理任务中具有极高的通用性。
#文档处理#数据提取#光学字符识别#多语言#嵌入向量
01
功能特性
01可扩展架构,带有用于自定义后端和处理器的插件系统。
02多语言支持,为10多种编程语言提供原生绑定。
03全面支持8大类、57种以上文件格式,包括Office文档、PDF和图像。
04先进的OCR功能,支持多种后端和智能表格检测。
05基于Rust核心、SIMD优化和完全并行化带来的高性能。
02
兼容性
Rust
核心库
已通过文档验证
Python
语言绑定
已通过文档验证
Elixir
语言绑定
已通过文档验证
Node.js
语言绑定
已通过文档验证
WASM
WebAssembly 支持
已通过文档验证
Java
语言绑定
已通过文档验证
03
使用场景
↳从各种文档类型中自动提取文本、元数据和结构化数据。
↳构建智能文档处理管道,用于数据摄取和分析。
↳为非结构化和半结构化内容实现高效的搜索和检索系统。
04
同类工具
相关搜索
评论
登录后发表评论
暂无评论,来发表第一条吧