加快打造原始创新策源地,加快突破关键核心技术,努力抢占科技制高点,为把我国建设成为世界科技强国作出新的更大的贡献。

——习近平总书记在致中国科学院建院70周年贺信中作出的“两加快一努力”重要指示要求

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,率先实现科学技术跨越发展,率先建成国家创新人才高地,率先建成国家高水平科技智库,率先建设国际一流科研机构。

——中国科学院办院方针

首页 > 科研进展

声学所在基于频域卷积传递函数的盲源分离研究中取得进展

2022-03-21 声学研究所
【字体:

语音播报

  盲源分离是指仅利用传声器接收到的信号把各个源信号恢复出来。音频信号的盲源分离最初是为解决“鸡尾酒会问题”,但其在人机语音交互、自动会议纪要、人声和配乐分离等方面有潜在应用价值。

  目前,流行的音频盲源分离算法如频域ICA(independent component analysis)、频域IVA(independent vector analysis)和ILRMA(independent low-rank matrix analysis)等均依赖于秩1的空间模型。该模型基于窄带假设,也就是短时傅里叶变换的窗长远大于混响时间。当混响时间变长时,此类盲源分离算法的性能严重下降。为解决该问题,FCA(full-rank covariance matrix analysis)、MNMF(multichannel nonnegative matrix factorization)和Fast MNMF等算法将空间模型强制约束为一个满秩的矩阵,并在强混响环境下取得性能提升。但满秩空间模型只是数学上的一个假设,缺乏明确的物理意义和严格的数学推导。

  近期,中国科学院声学研究所噪声与音频声学实验室博士生王泰辉和及研究员杨飞然、杨军提出一种基于频域卷积传递函数的盲源分离框架。不同于以往广泛采用的窄带假设,该研究利用频域卷积传递函数模型来建模时域的线性卷积,建立了一种全新的音频盲源分离框架。研究证明,上述满秩空间模型可利用所提出的新框架和声源信号慢变化这一近似条件推导出来,解释了满秩模型在强混响场景性能较好的原因。基于所提框架,该研究还提出一种新的多通道非负矩阵分解算法。实验证实这种超定盲源分离算法在强混响场景下比当前的盲源分离算法(ILRMA和FastMNMF)具有更好的分离性能和语音质量。

  该研究为解决强混响条件下的音频盲源分离提供了新思路。

  相关成果发表在IEEE-ACM Transactions on Audio,Speech,and Language Processing上。研究得到国家自然科学基金面上项目、中科院青年创新促进会和声学所自主部署“前沿探索”类项目资助。

  论文链接 

打印 责任编辑:程博

扫一扫在手机打开当前页

© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

编辑部邮箱:casweb@cashq.ac.cn

  • © 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864

    电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

    编辑部邮箱:casweb@cashq.ac.cn

  • © 1996 - 中国科学院 版权所有
    京ICP备05002857号-1
    京公网安备110402500047号
    网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864
    电话:86 10 68597114(总机)
       86 10 68597289(总值班室)
    编辑部邮箱:casweb@cashq.ac.cn