ingero:Ingero 是一个生产级 eBPF 代理,从 Linux 内核事件到 CUDA API 调用再到 Python 源码行,追踪 GPU 工作负载。它在不到 2% 的开销下提供因果根因分析,无需修改代码。它包含一个 MCP 服务器用于 AI 代理集成,支持自然语言诊断。;trigger.dev:Trigger.dev 是一个开源平台,旨在使用 TypeScript 构建 AI 工作流和代理。它为长时间运行的任务提供了一个强大的环境,内置重试、队列、可观测性和弹性扩展等功能,消除了典型的无服务器超时限制。
诊断训练工作负载中的 GPU 停顿和延迟尖峰
构建和部署长时间运行的AI代理和复杂工作流。