ingero
活跃·★ 84·Apache-2.0·更新于 2026-05-29
★ 时下流行★ 可观测性★ 大模型基础设施
Ingero 是一款基于 eBPF 的 GPU 可观测性工具,能零代码修改地追踪从内核到 CUDA 再到 Python 源码的完整因果链,并提供 AI 助手接口。
Ingero 是一个生产级 eBPF 代理,从 Linux 内核事件到 CUDA API 调用再到 Python 源码行,追踪 GPU 工作负载。它在不到 2% 的开销下提供因果根因分析,无需修改代码。它包含一个 MCP 服务器用于 AI 代理集成,支持自然语言诊断。
#causal-tracing#cuda#cuda-graphs#ebpf#gpu#gpu-monitoring#gpu-observability#incident-response
01
功能特性
01从内核到 Python 源码的全栈 GPU 追踪
02自动诊断的因果根因分析
03低于2%开销,零代码修改,单个二进制
04AI 助手集成的 MCP 服务器
05多节点集群查询和浏览器仪表盘
02
兼容性
Linux Kernel
Linux 5.15+ 且支持 BTF
已通过文档验证
NVIDIA Driver
NVIDIA 550+
已通过文档验证
CUDA
CUDA 11.x/12.x/13.x
已通过文档验证
NVIDIA GPU
GH200/H100/A100/A10/RTX 4090/3090
已通过文档验证
03
快速开始
1
$ VERSION=0.10.0
2
$ curl -fsSL "https://github.com/ingero-io/ingero/releases/download/v${VERSION}/ingero_${VERSION}_linux_amd64.tar.gz" | tar xz
3
$ sudo mv ingero /usr/local/bin/
04
使用场景
↳诊断训练工作负载中的 GPU 停顿和延迟尖峰
↳识别 CUDA API 瓶颈和 CPU/GPU 争用
↳多节点分布式训练调试,支持扇出查询
05
同类工具
相关搜索
评论
登录后发表评论
- CCameron Wilson2026年5月16日
Causal tracing for GPU workloads gives insights that standard profilers miss
- TTaylor Jackson2026年4月21日
eBPF-based GPU observability is a unique approach, very low overhead
- RRowan Nguyen2026年4月4日
The agent-based observability model is well suited to distributed ML training
- EEmerson Patel2026年3月23日
Used for debugging GPU memory issues in training runs, caught subtle allocation patterns