热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
1
14
打赏
- 复制链接
- 举报
下一条:
Spectron:第一个端到端训练的口语语言模型传统的语音对话系统通常需要先进行语音识别、语义理解、生成文本,再转成语音输出。Google开发出一种端到端训练的口语语言模型,它直接用声音的“频率图像”(声谱图)来进行学习和预测,而不用先把声音转成文字。这样做能更准确地捕捉声音的各种细节。声谱图驱动:一种新颖的语音处理方法主要原理:在传统的语音处理流程中,通常会有多个步骤,如语音识别、自然语言理解等。每个步骤都可能有自己的输入和输出格式。但在声谱图驱动的模型中,所有这些步骤都被统一为一个端到端的流程,直接在声谱图级别进行。工作流程:Spectron模型将语音识别模型的编码器与预训练的基于Transformer的解码器语言模型连接起来。在训练阶段,语音话语被分成一个提示和其延续。然后,整个转录(提示和延续)以及延续的语音特征都被重构。1、输入阶段:Spectron模型接收一个声谱图作为输入。这个声谱图是声音信号的图形表示,显示了不同频率成分随时间的变化。2、编码器:模型首先使用一个编码器来处理这个声谱图。编码器的任务是提取出声音信号中的重要特征,并将它们编码成一个更易于处理的形式。3、连接到解码器:编码后的数据然后被传递给一个预训练的基于Transformer的解码器。这个解码器是一个大型语言模型,专门用于生成文本。4、生成与重构:解码器生成一个文本转录(也就是它认为输入声声谱图所代表的口语内容)。同时,模型还尝试重构输入的声谱图,以生成一个新的声音信号。5、输出阶段:最终,模型输出一个新的声谱图,这个声谱图是模型对输入声音信号的“回应”或“延续”。性能评估:Spectron在Libri-Light数据集上进行了实验,该数据集是一个包含60k小时英语数据的数据集。实验结果显示,Spectron在口语问题回答和语音延续方面的性能都非常出色。详细介绍:https://blog.research.google/2023/10/spoken-question-answering-and-speech.html项目演示:https://michelleramanovich.github.io/spectron/spectron/论文:https://arxiv.org/abs/2305.15255CR:互联网的那点事
