德用双音素改进人工语音表达----中国科学院

如何才能使人工的语音更加人性化，获得更多的“人说话的感觉”。德国科学家正致力于把语音转换成数字，并利用计算方法寻找人工语音中不完善的地方。他们的目标是开发一个人类语言自我学习的数学模型，它可以使得任意对象被赋予任意的声音，而且听起来没有人工合成的感觉。

人类的声音会唤起想象，就像未曾谋面的电台主持人或那些只在电话中联系过的人一样，通过声音，人们会自然想象发出这一声音的人的形象。“如果此时观察听者大脑的活动会发现，自然的人的声音会引起脑部那些负责感情和联想的区域的活动。而人们听到人工语音时，这些领域保持沉默。” 德国萨尔布吕肯大学语音专家贝恩德·莫比乌斯教授介绍说。

虽然在自动应答系统中，现代的人工语音早已远离那种尖细，断续且不带口音的声音，但是对声音十分挑剔的人耳还是能听出细微的差别。当语素和语言片段组成句子时，话语中最细微的语音间隙也会立即暴露。

莫比乌斯教授目前正与“多模态计算与互动”卓越集群、德国人工智能研究中心（DFKI）的计算机和信息科学家，以及心理语言学家一起工作，致力于找出人类语音的特征，并将其融入人工语音，消除语音间隙和干扰因素。

他们根据一个人们在录音棚录制的数字化的语料库，在一定程度上找到了最小的语音部分，即所谓的“双音素”。双音素是简短的语音单元，它从一个语音片段的中间开始，到接下来的语音段的中间结束。莫比乌斯说：“我们的语言可识别45个语音和大约2000个双音素，其中每个时长大约只有100毫秒。有了这些工具，我们就能够覆盖整个语言的语音平台。”

莫比乌斯通过这样的方式把人工语音中的过渡平滑地串联起来，优化后的语言模块可以将所有可能的组合放在一起。数学的语音合成模型是独立于原始录入人的语音的，因此，它可以适用于任何一个声音的语音。未来除了通常的对话或信息系统外，该技术在医学上也有新的应用。