声学所在线端对端语音识别研究获进展----中国科学院

声学所在线端对端语音识别研究获进展

2020-08-14 声学研究所

【字体：大中小】

语音播报

　　端对端语音识别是一种利用深度学习模型将语音信号直接转变为文字的技术，其中，基于注意力机制的模型可以达到较高的识别准确率。但大多数注意力机制模型需要完整的语音信号，不适用于在线处理语音流。

　　针对在线语音识别的应用场景，中国科学院声学研究所语言声学与内容理解重点实验室博士生缪浩然与其导师、研究员张鹏远，助理研究员程高峰等对主流注意力机制处理语音流的性能开展研究，提出一种单调截断语音流的在线注意力机制和一套高效实时的解码算法。近日，相关研究成果在线发表在IEEE/ACM Transactions on Audio, Speech, and Language Processing上。

　　研究发现，语音识别系统对各时刻语音信号注意力的权重分布呈指数衰减态势，这不利于处理长时语音流；在线注意力模型训练和推理之间存在差异，导致模型性能下降。基于上述问题，研究人员在设计单调截断语音流的在线注意力模型时，优化注意力权重指数衰减特性、通过离散化注意力权重缩小训练和推理之间的差异。

　　基于公开的中英文语音识别数据集的实验表明，单调截断语音流的在线注意力模型在处理长时语音流时性能更稳定；基于注意力机制和联结主义时序分类准则的联合在线解码算法，在线语音识别系统的字错误率略高于离线系统，其解码速度可以达到离线系统的1.5倍。这种单调截断语音流的在线注意力机制和相关解码算法为端对端语音识别技术在大规模工业在线产品中的应用提供可行方案。

　　该研究得到国家自然科学基金的资助。

在线端对端语音识别框架

打印

责任编辑：侯茜

扫一扫在手机打开当前页

院机关

派驻机构

分院

院属机构

声学所在线端对端语音识别研究获进展