ChatTTS:ChatTTS 是一个专为日常对话场景(如大型语言模型助手)设计的生成式语音模型。它通过对笑声、停顿和语调等韵律特征的精细控制,提供自然且富有表现力的语音合成。;FunASR:FunASR 是一个基础的端到端语音识别工具包。它提供工业级的语音识别能力,比 Whisper 快 170 倍,支持 50 多种语言,并集成了说话人分离、情感检测和流式识别等功能。
在对话场景中为大型语言模型助手提供语音输出
带说话人标签、时间戳和标点符号的会议转录