groundingLMM
活跃·★ 958·Apache-2.0·更新于 2025-08-05
★ 时下流行
GLaMM是一个像素级接地的大型多模态模型,通过统一的接地对话生成任务,能够灵活处理图像和区域输入并提供视觉接地能力。
GLaMM(接地大型多模态模型)是一个端到端训练的大型多模态模型,能够生成与对象分割掩码集成的自然语言响应,实现了视觉接地,并支持在多层次粒度上与图像进行灵活交互。它引入了新颖的接地对话生成(GCG)任务,支持指代表达式分割和区域级图像描述等多种下游应用,并以大规模的GranD数据集为基础。
#多模态人工智能#计算机视觉#自然语言处理#图像分割#深度学习