groundingLMM:GLaMM(接地大型多模态模型)是一个端到端训练的大型多模态模型,能够生成与对象分割掩码集成的自然语言响应,实现了视觉接地,并支持在多层次粒度上与图像进行灵活交互。它引入了新颖的接地对话生成(GCG)任务,支持指代表达式分割和区域级图像描述等多种下游应用,并以大规模的GranD数据集为基础。;google_workspace_mcp:这个生产就绪的MCP服务器通过MCP客户端、AI助手和开发者工具,实现了对Google日历、云端硬盘、Gmail、文档、表格、幻灯片、表单、任务和聊天的全面自然语言控制。它是功能最完整的Google Workspace MCP服务器,现已支持远程OAuth2.1多用户操作和一键Claude安装。
理解并响应用户关于特定图像区域查询的交互式视觉助手。
通过AI助手实现Google Workspace服务的自然语言控制。