goldenmatch
活跃·★ 54·MIT·更新于 2026-05-29
★ 时下流行★ 工作流自动化★ 开发者工具
一个多语言数据质量和实体解析工具包。
Golden Suite是一个多语言数据质量和实体解析工具包,包含用于去重的GoldenMatch、用于数据质量扫描的GoldenCheck、用于标准化的GoldenFlow和用于编排管道的GoldenPipe。它具有零配置默认值、高F1分数和AI原生接口(MCP、REST、A2A)。
#active-learning#智能体#Apache Airflow#auto-config#data-engineering#data-quality#deduplication#entity-resolution
01
功能特性
01零配置实体解析,在DBLP-ACM上F1达97.2%
02Python和TypeScript多语言对等(4位小数精度)
03AI原生接口:MCP服务器、REST API、A2A代理
04学习记忆,跨运行持久化校正
05隐私保护记录链接(PPRL,在FEBRL4上F1达92.4%)
02
兼容性
Python
Python 3.11+
已通过文档验证
Node
Node >=20
已通过文档验证
Postgres
Postgres扩展
已通过文档验证
DuckDB
DuckDB UDF
已通过文档验证
dbt
dbt包
已通过文档验证
GitHub Actions
GitHub Action
已通过文档验证
03
快速开始
1
$ pip install goldenmatch
04
使用场景
↳30秒内通过单条命令对CSV去重
↳在匹配前分析数据质量以识别问题
↳使用GoldenPipe声明式运行完整管道
05
同类工具
相关搜索
评论
登录后发表评论
- JJordan Thompson2026年5月14日
Negative example learning makes the deduplication smarter with minimal setup
- QQuinn Davis2026年5月10日
Zero-config entity resolution with automatic configuration is rare and valuable
- SSage Thompson2026年4月24日
Used for customer data deduplication, the polyglot support handles mixed data sources