蝴蝶结变声器(名侦探柯南同款变声器)
编者按: 智显未来,洞见新知 。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏,为你介绍人工智能相关知识与故事,从最新成果到背后趣闻,带你徜徉AI空间,看人工智能如何唤醒万物,让世界变得更美好。
在《名侦探柯南》中,最让人欣羡的黑科技就是阿笠博士制造的蝴蝶结变声器了,柯南为了隐藏自己的身份,会通过变声器来模仿毛利小五郎等人的声音来隐匿自己的身份 。有了这个变声器,就可以把声音变成任何人的声音 。
想要百思特网实现变声器的变声功能,可以通过语音转换技术 。语音转换,从广义上说,它是指对语音的个性特征进行修改,目的是在保留语音中语言内容信息的同时修改语音信号的一个或多个方面的特征;从狭义上说,它是指将源说话人的语音转换为具有目标说话人发音特征的语音 。
语音转换系统的基本框架图
语音转换研究算法主要包括训练模块和转换模块 。
训练模块包括特征分析、特征对齐、模型训练以及转换函数 。特征对齐模块用于建立两说话人语音特征之间的映射规则 。有些语音转换要求源语音和目百思特网标语音的语音文本内容相同 。在建立训练语音转换模型之前,由于说话人发音速度存在差异,需要对提取的说话人语音特征在时间尺度上进行对齐,常用的方法有动态时间规整和基于隐马尔可夫模型的强制对齐算法,而有些语音转换系统不需要平行的语料,这种情况还需要其他特殊处理 。
语音转换模型是能够建立源语音和目标语音声学特征之间的映射关系,其方法是估计一个或一组映射函数使得转换后的特征与目标特征之间的误差最小 。常用的语音转换模型包括码本映射、高斯混合模型、隐马尔可夫模型和人工神经网络等 。
一个完整的语音转换系统应该解决以下三个问题:什么语音特征能够代表语音信号中说话人的信息以及如何估计这些语音特征?如何建立源和目标说话人语音特征间的对应规则?如何由转换后的语音特征合成得到转换后的语音信号?
第一个问题是指,语音转换要区分的语音中语音内容、说话人个性特征和语音背景信息等三方面内容 。而说话人个性特征才是语音转换的关注对象 。
第二个问题是指如果在语音信息的三个方面中,针对关注对象说话人个性特征建立源和目标之间的对应关系,而排除另两个方百思特网面的干扰 。一般来说假设语音背景信息相同或一致,所以主要的干扰信息来自于语音内容信息 。这正是数据对齐的作用 。它是语音转换中非常重要的模块,会直接影响语音转换的结果 。
第三个问题可以由模型训练模块和转换模块来解决,也是现今语音转换中比较成熟的技术 。
语音转化技术的应用十分广泛,例如:
个性化语音合成系统:在语音合成系统中,文字直接合成为语音,合成的新语音个性特征单一,听上去像生硬的机器语言,不自然 。如果在进行语音合成系统生成语音之后,用一个语音转换系统作用于该语音,或是先将合成单元通过语音转换系统,然后再进行语音合成,之后得到具有特定说话人个性特征的合成语音 。语音转换研究涉及到大量说话人个性特征的分析和建模,其研究结果对情感和个性化语音等有特色语音的分析和生成具有十分重要的意义,这样可以弥补单一的语音合成系统中存在的缺陷,使得合成的语音具有丰富的个性化特征,进而得到听觉效果更好的语音 。
个性化语音合成系统
语音翻译系统:语音翻译系统是将一种语言的语音翻译成另一种语言的语音,同时保持说话人的身份和说话风格 。系统先通过语音识别转换成文字,然后使用机器翻译变成另一种语言,最后使用语音合成系统和跨语言语音转换系统合成翻译后的句子 。
推荐阅读
- 正黄旗有什么来历? 满族镶黄旗
- 米奇漆是几线品牌 米奇儿童漆
- 淡虾皮好还是咸虾皮好 虾皮的营养价值
- 夏诗八首 夏的古诗
- 最好的减肚子减脂的方法 腹部减肥法
- 兔女郎锐雯皮肤 兔女郎锐雯
- 空调显示化霜怎么处理 空调化霜
- VLOOKUP函数怎么用 vlookup怎么用详细步骤
- 爵士吉他和民谣吉他的区别 民谣吉他和古典吉他的区别