ChatTTS:ChatTTS 是一个专为日常对话场景(如大型语言模型助手)设计的生成式语音模型。它通过对笑声、停顿和语调等韵律特征的精细控制,提供自然且富有表现力的语音合成。;claude-video-vision:这是一个Claude Code插件,赋予Claude观看和理解视频的能力。它通过ffmpeg提取视频帧,并通过多种后端(Gemini、本地Whisper或OpenAI)处理音频。Claude接收图像形式的帧以及带时间戳的音频转录,充当感知层。
在对话场景中为大型语言模型助手提供语音输出
通过提供视频路径并可选提出具体问题来分析视频文件