FunASR:FunASR 是一个基础的端到端语音识别工具包。它提供工业级的语音识别能力,比 Whisper 快 170 倍,支持 50 多种语言,并集成了说话人分离、情感检测和流式识别等功能。;worldlabs-mcp:worldlabs-mcp 是一个模型上下文协议网关,连接到世界实验室的 Marble 和 Spark 2.0 引擎。它支持从多种输入(文本、图像、视频、全景图)生成可导航的 3D 世界,通过高斯喷溅渲染进行实时流式传输,并集成空间语音代理。该项目包含 Web 仪表板、多个导出目标(Resonite、Blender、Unity)以及 VR 头戴设备支持。
带说话人标签、时间戳和标点符号的会议转录
从文本或图像生成可导航的 3D 世界,用于 VR/AR 体验