groundingLMM:GLaMM(接地大型多模态模型)是一个端到端训练的大型多模态模型,能够生成与对象分割掩码集成的自然语言响应,实现了视觉接地,并支持在多层次粒度上与图像进行灵活交互。它引入了新颖的接地对话生成(GCG)任务,支持指代表达式分割和区域级图像描述等多种下游应用,并以大规模的GranD数据集为基础。;Open Interpreter:Open Interpreter 让 LLM 通过自然语言对话界面在本地执行 Python、JavaScript、Shell 等代码,赋予 AI 直接访问计算机的能力:创建编辑文件、控制浏览器、分析数据集和运行任意程序,安装后在终端运行 `interpreter` 即可使用。
理解并响应用户关于特定图像区域查询的交互式视觉助手。
通过自然语言自动化复杂的本地文件和数据操作任务