ingero:Ingero 是一个生产级 eBPF 代理,从 Linux 内核事件到 CUDA API 调用再到 Python 源码行,追踪 GPU 工作负载。它在不到 2% 的开销下提供因果根因分析,无需修改代码。它包含一个 MCP 服务器用于 AI 代理集成,支持自然语言诊断。;conductor:Conductor是由Netflix开发的平台,旨在协调跨微服务的复杂工作流,支持通过JSON和代码创建。然而,Netflix已于2023年12月13日停止其官方开源维护,但鼓励社区继续分叉和开发。
诊断训练工作负载中的 GPU 停顿和延迟尖峰
协调涉及多个微服务的复杂业务流程。