工具分类热门最新对比

Vision / Multimodal/

groundingLMM

groundingLMM

活跃·★ 958·Apache-2.0·更新于 2025-08-05

★ 时下流行

GLaMM是一个像素级接地的大型多模态模型，通过统一的接地对话生成任务，能够灵活处理图像和区域输入并提供视觉接地能力。

GLaMM（接地大型多模态模型）是一个端到端训练的大型多模态模型，能够生成与对象分割掩码集成的自然语言响应，实现了视觉接地，并支持在多层次粒度上与图像进行灵活交互。它引入了新颖的接地对话生成（GCG）任务，支持指代表达式分割和区域级图像描述等多种下游应用，并以大规模的GranD数据集为基础。

#多模态人工智能#计算机视觉#自然语言处理#图像分割#深度学习

↗ 访问官网

© 2026 AgentIndex.app|由十年 iOS 开发者构建。

QYS GitHub 请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化 RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。

01

功能特性

01生成与对象分割掩码无缝集成的自然语言响应。

02支持新颖的接地对话生成（GCG）任务，并提供全面的评估协议。

03执行详细的区域级图像描述和回答基于推理的视觉问题。

04通过从基于文本的查询创建分割掩码，擅长指代表达式分割。

05提供高质量的图像描述和会话式问答。

02

兼容性

LLaVA

支持

已通过文档验证

GPT4ROI

支持

已通过文档验证

LISA

支持

已通过文档验证

03

使用场景

↳理解并响应用户关于特定图像区域查询的交互式视觉助手。

↳用于创建密集、像素级接地数据集的自动化标注工具。

↳需要视觉理解和带有分割的详细文本描述的高级图像分析任务。

04

同类工具

ragflow★ 81.5k

RAGFlow 是一个领先的开源检索增强生成 (RAG) 引擎，它融合了前沿的RAG与Agent能力，为大型语言模型提供卓越的上下文层，并简化企业级RAG工作流。

n8n是一个工作流自动化平台，为技术团队提供了代码的灵活性和无代码的速度，拥有400多个集成和原生的AI能力。

ChatGPT on WeChat★ 44.9k

ChatGPT-on-Wechat是一个基于大模型的智能对话机器人框架，支持多平台接入、多模态消息处理、丰富插件和知识库定制企业AI应用。

相关搜索

groundingLMM 替代工具最佳 Vision / Multimodal 工具 2026 开源 Vision / Multimodal groundingLMM 教程 groundingLMM 对比 Multimodal AI Computer Vision Natural Language Processing

评论

登录后发表评论

暂无评论，来发表第一条吧

本页内容

01功能特性 02兼容性 03使用场景 04同类工具

统计

GitHub Stars★ 958

最后更新9个月前

状态活跃

许可证Apache-2.0

分类视觉/多模态

google_workspace_mcp★ 2.5k

通过所有MCP客户端、AI助手和开发者工具，实现对Google日历、云端硬盘、Gmail、文档、表格、幻灯片、表单、任务和聊天的完全自然语言控制。

awesome-generative-ai★ 3.5k

一个精选的生成式AI项目、工具、艺术作品和模型列表。

AgileRL 是一个深度强化学习库，通过引入 RLOps 来简化和加速强化学习开发。

AIlice是一个完全自主的通用人工智能代理，基于开源大型语言模型，能够分解复杂任务。

awesome-game-ai★ 964

一个关于多智能体学习中游戏AI资源的精选列表。

查看全部替代品 →

热度趋势 (30d)

+38.3↑ 4.4%

链接

文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit