AgentIndex icon
AgentIndex
工具分类热门最新对比
提交工具
首页/
Vision / Multimodal/
groundingLMM
groundingLMM logo

groundingLMM

活跃·★ 958·Apache-2.0·更新于 2025-08-05
★ 时下流行

GLaMM是一个像素级接地的大型多模态模型,通过统一的接地对话生成任务,能够灵活处理图像和区域输入并提供视觉接地能力。

GLaMM(接地大型多模态模型)是一个端到端训练的大型多模态模型,能够生成与对象分割掩码集成的自然语言响应,实现了视觉接地,并支持在多层次粒度上与图像进行灵活交互。它引入了新颖的接地对话生成(GCG)任务,支持指代表达式分割和区域级图像描述等多种下游应用,并以大规模的GranD数据集为基础。

#多模态人工智能#计算机视觉#自然语言处理#图像分割#深度学习
↗ 访问官网
© 2026 AgentIndex.app|由十年 iOS 开发者构建。
QYSGitHub请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。

★ GitHub
01

功能特性

01生成与对象分割掩码无缝集成的自然语言响应。
02支持新颖的接地对话生成(GCG)任务,并提供全面的评估协议。
03执行详细的区域级图像描述和回答基于推理的视觉问题。
04通过从基于文本的查询创建分割掩码,擅长指代表达式分割。
05提供高质量的图像描述和会话式问答。
02

兼容性

LLaVA
支持
已通过文档验证
GPT4ROI
支持
已通过文档验证
LISA
支持
已通过文档验证
03

使用场景

↳理解并响应用户关于特定图像区域查询的交互式视觉助手。
↳用于创建密集、像素级接地数据集的自动化标注工具。
↳需要视觉理解和带有分割的详细文本描述的高级图像分析任务。
04

同类工具

ragflow logo
ragflow★ 81.5k
RAGFlow 是一个领先的开源检索增强生成 (RAG) 引擎,它融合了前沿的RAG与Agent能力,为大型语言模型提供卓越的上下文层,并简化企业级RAG工作流。
vs →
n8n logo
n8n★ 190.2k
n8n是一个工作流自动化平台,为技术团队提供了代码的灵活性和无代码的速度,拥有400多个集成和原生的AI能力。
vs →
ChatGPT on WeChat logo
ChatGPT on WeChat★ 44.9k
ChatGPT-on-Wechat是一个基于大模型的智能对话机器人框架,支持多平台接入、多模态消息处理、丰富插件和知识库定制企业AI应用。

相关搜索

groundingLMM 替代工具最佳 Vision / Multimodal 工具 2026开源 Vision / MultimodalgroundingLMM 教程groundingLMM 对比Multimodal AIComputer VisionNatural Language Processing

评论

登录后发表评论

暂无评论,来发表第一条吧

本页内容
01功能特性02兼容性03使用场景04同类工具
统计
GitHub Stars★ 958
最后更新9个月前
状态活跃
许可证Apache-2.0
分类视觉/多模态
vs →
google_workspace_mcp logo
google_workspace_mcp★ 2.5k
通过所有MCP客户端、AI助手和开发者工具,实现对Google日历、云端硬盘、Gmail、文档、表格、幻灯片、表单、任务和聊天的完全自然语言控制。
vs →
awesome-generative-ai logo
awesome-generative-ai★ 3.5k
一个精选的生成式AI项目、工具、艺术作品和模型列表。
vs →
AgileRL logo
AgileRL★ 921
AgileRL 是一个深度强化学习库,通过引入 RLOps 来简化和加速强化学习开发。
vs →
AIlice logo
AIlice★ 1.4k
AIlice是一个完全自主的通用人工智能代理,基于开源大型语言模型,能够分解复杂任务。
vs →
awesome-game-ai logo
awesome-game-ai★ 964
一个关于多智能体学习中游戏AI资源的精选列表。
vs →
查看全部替代品 →
热度趋势 (30d)
+38.3↑ 4.4%
链接
文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit

Ad