ingero:Ingero 是一个生产级 eBPF 代理,从 Linux 内核事件到 CUDA API 调用再到 Python 源码行,追踪 GPU 工作负载。它在不到 2% 的开销下提供因果根因分析,无需修改代码。它包含一个 MCP 服务器用于 AI 代理集成,支持自然语言诊断。;OpenMetadata:OpenMetadata 是一个统一的元数据平台,通过中央存储库和列级血缘实现数据发现、可观测性和治理。这是一个快速增长的开源项目,能够跨各种数据服务实现端到端元数据管理。
诊断训练工作负载中的 GPU 停顿和延迟尖峰
集中式数据发现与探索