院况简介
1949年,伴随着新中国的诞生,中国科学院成立。
作为国家在科学技术方面的最高学术机构和全国自然科学与高新技术的综合研究与发展中心,建院以来,中国科学院时刻牢记使命,与科学共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全做出了不可替代的重要贡献。 更多简介 +
院领导集体
创新单元
科技奖励
科技期刊
工作动态/ 更多
中国科学院学部
中国科学院院部
语音播报
盲源分离是指仅利用传声器接收到的信号把各个源信号恢复出来。音频信号的盲源分离最初是为解决“鸡尾酒会问题”,但其在人机语音交互、自动会议纪要、人声和配乐分离等方面有潜在应用价值。
目前,流行的音频盲源分离算法如频域ICA(independent component analysis)、频域IVA(independent vector analysis)和ILRMA(independent low-rank matrix analysis)等均依赖于秩1的空间模型。该模型基于窄带假设,也就是短时傅里叶变换的窗长远大于混响时间。当混响时间变长时,此类盲源分离算法的性能严重下降。为解决该问题,FCA(full-rank covariance matrix analysis)、MNMF(multichannel nonnegative matrix factorization)和Fast MNMF等算法将空间模型强制约束为一个满秩的矩阵,并在强混响环境下取得性能提升。但满秩空间模型只是数学上的一个假设,缺乏明确的物理意义和严格的数学推导。
近期,中国科学院声学研究所噪声与音频声学实验室博士生王泰辉和及研究员杨飞然、杨军提出一种基于频域卷积传递函数的盲源分离框架。不同于以往广泛采用的窄带假设,该研究利用频域卷积传递函数模型来建模时域的线性卷积,建立了一种全新的音频盲源分离框架。研究证明,上述满秩空间模型可利用所提出的新框架和声源信号慢变化这一近似条件推导出来,解释了满秩模型在强混响场景性能较好的原因。基于所提框架,该研究还提出一种新的多通道非负矩阵分解算法。实验证实这种超定盲源分离算法在强混响场景下比当前的盲源分离算法(ILRMA和FastMNMF)具有更好的分离性能和语音质量。
该研究为解决强混响条件下的音频盲源分离提供了新思路。
相关成果发表在IEEE-ACM Transactions on Audio,Speech,and Language Processing上。研究得到国家自然科学基金面上项目、中科院青年创新促进会和声学所自主部署“前沿探索”类项目资助。
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn
© 1996 - 中国科学院 版权所有
京ICP备05002857号-1
京公网安备110402500047号
网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话:86 10 68597114(总机)
86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn