谷歌的Translatotron是一个模仿人类声音的端到端的模型

【谷歌的Translatotron是一个模仿人类声音的端到端的模型】
谷歌人工智能今天分享了关于Translatotron的详细信息，这是一个实验的人工智能系统，能够将一个人的声音直接翻译成另一种语言，这种方法允许对一个人的声音进行综合翻译，以保持原始说话人的声音。
传统上，语音翻译使用自动语音识别将语音转换为文本，应用机器翻译，然后使用文本到语音来产生翻译，但Translatotron是端到端的翻译模型。研究人员说，与传统的级联模型相比，Translatotron可以更快地完成翻译，并减少并发症。
“据我们所知，Translatotron是第一个端到端的模型，它可以直接将一种语言的语音转换成另一种语言的语音。它还能够在翻译的演讲中保留源说话人的声音。
测量机器翻译质量的BLEU评分发现实验的Translatotron比传统的级联系统质量低，但Translatotron比基线级联翻译获得了更准确的翻译。
机器翻译的端到端模型的出现始于法国研究人员于2016年在Neur IPS接受的一篇论文。
为了使Translatotron能够进行端到端的翻译，研究人员使用序列对序列模型和谱图作为输入训练数据。扬声器编码器网络用于捕获扬声器声音的特征，多任务学习用于预测源和目标扬声器使用的单词。
Translatotron在今天发表的一篇题为“使用序列对序列模型的直接语音到语音翻译”的论文中得到了更详细的阐述。
Translatotron的发布是在谷歌推出SpecAugment一个月后出现的，SpecAugment是一种人工智能模型，它使用计算机视觉和多种技术从光谱图像中理解单词。
Translatotron可以应用于类似Google Assistant的口译模式，该模式在今年1月首次面向家庭演讲者。口译模式能够以27种语言进行听力和语音翻译。像谷歌和微软这样的公司也在使用他们的语言翻译作为赢得iOS用户的一种方式。
Translatotron是谷歌在机器翻译和语言处理方面的最新进展。
上周，在谷歌的I/O开发者大会上，谷歌分享到，它缩小了其反复出现的神经网络和语言理解模型，用于智能手机设备上的机器学习，使谷歌的速度提高了10倍。谷歌还推出了镜头翻译，这样你的相机就可以翻译100多种语言。

谷歌的Translatotron是一个模仿人类声音的端到端的模型

推荐阅读

关于节约粮食的名言诗句关于节约粮食的名言和诗句

奋斗励志朋友圈句子励志短句致自己奋斗朋友圈

想发朋友圈表示心情不好的句子心情不好发朋友圈的句子心情短句

贝拉玻尿酸是合法的吗贝拉玻尿酸是进口的还是国产的

核桃仁做菜的菜谱，您知道桃仁脆溜鸡的做法

浅紫色显皮肤黑还是白

库伦旗景点

居家隔离和集中隔离的区别什么情况下要隔离28天

蝉蛹是什么

怎样能丰胸最安全有效