Scrapling:Scrapling 是一个为现代网络提供轻松数据提取的自适应 Python 网络抓取框架,能够处理从单个请求到全面并发爬取的所有任务。它具有先进的反机器人绕过功能、智能元素重定位以及内置代理轮换和 AI 集成的全面会话管理。;crw:CRW 是一个专为 AI 代理设计的单二进制网页抓取工具,支持命令行、MCP 和 REST API。它与 Firecrawl 兼容,提供 JavaScript 渲染功能,占用资源极低。可自托管或通过云服务使用。
执行单个网页请求或启动全面的并发网络爬取。
用于向量数据库的 RAG 管道