English | 繁体 | RSS | 网站地图 | 收藏 | 邮箱 | 联系我们
首页 新闻 机构 科研 院士 人才 教育 合作交流 科学普及 出版 信息公开 专题 访谈 视频 会议 党建 文化
  您现在的位置: 首页 > 新闻 > 科技动态 > 国际动态
德用双音素改进人工语音表达
可将数字语音中的间隙平滑地串联起来
  文章来源:科技日报 李山 发布时间:2012-12-20 【字号: 小  中  大   

如何才能使人工的语音更加人性化,获得更多的“人说话的感觉”。德国科学家正致力于把语音转换成数字,并利用计算方法寻找人工语音中不完善的地方。他们的目标是开发一个人类语言自我学习的数学模型,它可以使得任意对象被赋予任意的声音,而且听起来没有人工合成的感觉。
人类的声音会唤起想象,就像未曾谋面的电台主持人或那些只在电话中联系过的人一样,通过声音,人们会自然想象发出这一声音的人的形象。“如果此时观察听者大脑的活动会发现,自然的人的声音会引起脑部那些负责感情和联想的区域的活动。而人们听到人工语音时,这些领域保持沉默。” 德国萨尔布吕肯大学语音专家贝恩德·莫比乌斯教授介绍说。

虽然在自动应答系统中,现代的人工语音早已远离那种尖细,断续且不带口音的声音,但是对声音十分挑剔的人耳还是能听出细微的差别。当语素和语言片段组成句子时,话语中最细微的语音间隙也会立即暴露。

莫比乌斯教授目前正与“多模态计算与互动”卓越集群、德国人工智能研究中心(DFKI)的计算机和信息科学家,以及心理语言学家一起工作,致力于找出人类语音的特征,并将其融入人工语音,消除语音间隙和干扰因素。

他们根据一个人们在录音棚录制的数字化的语料库,在一定程度上找到了最小的语音部分,即所谓的“双音素”。双音素是简短的语音单元,它从一个语音片段的中间开始,到接下来的语音段的中间结束。莫比乌斯说:“我们的语言可识别45个语音和大约2000个双音素,其中每个时长大约只有100毫秒。有了这些工具,我们就能够覆盖整个语言的语音平台。”

莫比乌斯通过这样的方式把人工语音中的过渡平滑地串联起来,优化后的语言模块可以将所有可能的组合放在一起。数学的语音合成模型是独立于原始录入人的语音的,因此,它可以适用于任何一个声音的语音。未来除了通常的对话或信息系统外,该技术在医学上也有新的应用。

  打印本页 关闭本页
© 1996 - 中国科学院 版权所有 京ICP备05002857号  京公网安备110402500047号  联系我们
地址:北京市三里河路52号 邮编:100864