声学所在基于频域卷积传递函数的盲源分离研究中取得进展----中国科学院

声学所在基于频域卷积传递函数的盲源分离研究中取得进展

2022-03-21 声学研究所

【字体：大中小】

语音播报

　　盲源分离是指仅利用传声器接收到的信号把各个源信号恢复出来。音频信号的盲源分离最初是为解决“鸡尾酒会问题”，但其在人机语音交互、自动会议纪要、人声和配乐分离等方面有潜在应用价值。

　　目前，流行的音频盲源分离算法如频域ICA（independent component analysis）、频域IVA（independent vector analysis）和ILRMA（independent low-rank matrix analysis）等均依赖于秩1的空间模型。该模型基于窄带假设，也就是短时傅里叶变换的窗长远大于混响时间。当混响时间变长时，此类盲源分离算法的性能严重下降。为解决该问题，FCA（full-rank covariance matrix analysis）、MNMF（multichannel nonnegative matrix factorization）和Fast MNMF等算法将空间模型强制约束为一个满秩的矩阵，并在强混响环境下取得性能提升。但满秩空间模型只是数学上的一个假设，缺乏明确的物理意义和严格的数学推导。

　　近期，中国科学院声学研究所噪声与音频声学实验室博士生王泰辉和及研究员杨飞然、杨军提出一种基于频域卷积传递函数的盲源分离框架。不同于以往广泛采用的窄带假设，该研究利用频域卷积传递函数模型来建模时域的线性卷积，建立了一种全新的音频盲源分离框架。研究证明，上述满秩空间模型可利用所提出的新框架和声源信号慢变化这一近似条件推导出来，解释了满秩模型在强混响场景性能较好的原因。基于所提框架，该研究还提出一种新的多通道非负矩阵分解算法。实验证实这种超定盲源分离算法在强混响场景下比当前的盲源分离算法（ILRMA和FastMNMF）具有更好的分离性能和语音质量。

　　该研究为解决强混响条件下的音频盲源分离提供了新思路。

　　相关成果发表在IEEE-ACM Transactions on Audio,Speech,and Language Processing上。研究得到国家自然科学基金面上项目、中科院青年创新促进会和声学所自主部署“前沿探索”类项目资助。

　　论文链接

　　盲源分离是指仅利用传声器接收到的信号把各个源信号恢复出来。音频信号的盲源分离最初是为解决“鸡尾酒会问题”，但其在人机语音交互、自动会议纪要、人声和配乐分离等方面有潜在应用价值。
　　目前，流行的音频盲源分离算法如频域ICA（independent component analysis）、频域IVA（independent vector analysis）和ILRMA（independent low-rank matrix analysis）等均依赖于秩1的空间模型。该模型基于窄带假设，也就是短时傅里叶变换的窗长远大于混响时间。当混响时间变长时，此类盲源分离算法的性能严重下降。为解决该问题，FCA（full-rank covariance matrix analysis）、MNMF（multichannel nonnegative matrix factorization）和Fast MNMF等算法将空间模型强制约束为一个满秩的矩阵，并在强混响环境下取得性能提升。但满秩空间模型只是数学上的一个假设，缺乏明确的物理意义和严格的数学推导。
　　近期，中国科学院声学研究所噪声与音频声学实验室博士生王泰辉和及研究员杨飞然、杨军提出一种基于频域卷积传递函数的盲源分离框架。不同于以往广泛采用的窄带假设，该研究利用频域卷积传递函数模型来建模时域的线性卷积，建立了一种全新的音频盲源分离框架。研究证明，上述满秩空间模型可利用所提出的新框架和声源信号慢变化这一近似条件推导出来，解释了满秩模型在强混响场景性能较好的原因。基于所提框架，该研究还提出一种新的多通道非负矩阵分解算法。实验证实这种超定盲源分离算法在强混响场景下比当前的盲源分离算法（ILRMA和FastMNMF）具有更好的分离性能和语音质量。
　　该研究为解决强混响条件下的音频盲源分离提供了新思路。
　　相关成果发表在IEEE-ACM Transactions on Audio,Speech,and Language Processing上。研究得到国家自然科学基金面上项目、中科院青年创新促进会和声学所自主部署“前沿探索”类项目资助。
　　论文链接
　　

打印

责任编辑：程博

扫一扫在手机打开当前页

院机关

派驻机构

分院

院属机构

声学所在基于频域卷积传递函数的盲源分离研究中取得进展