谷歌的Translatotron是一个模仿人类声音的端到端的模型

【谷歌的Translatotron是一个模仿人类声音的端到端的模型】
谷歌人工智能今天分享了关于Translatotron的详细信息,这是一个实验的人工智能系统,能够将一个人的声音直接翻译成另一种语言,这种方法允许对一个人的声音进行综合翻译,以保持原始说话人的声音 。
传统上,语音翻译使用自动语音识别将语音转换为文本,应用机器翻译,然后使用文本到语音来产生翻译,但Translatotron是端到端的翻译模型 。研究人员说,与传统的级联模型相比,Translatotron可以更快地完成翻译,并减少并发症 。
“据我们所知,Translatotron是第一个端到端的模型,它可以直接将一种语言的语音转换成另一种语言的语音 。它还能够在翻译的演讲中保留源说话人的声音 。
测量机器翻译质量的BLEU评分发现实验的Translatotron比传统的级联系统质量低,但Translatotron比基线级联翻译获得了更准确的翻译 。
机器翻译的端到端模型的出现始于法国研究人员于2016年在Neur IPS接受的一篇论文 。
为了使Translatotron能够进行端到端的翻译,研究人员使用序列对序列模型和谱图作为输入训练数据 。扬声器编码器网络用于捕获扬声器声音的特征,多任务学习用于预测源和目标扬声器使用的单词 。
Translatotron在今天发表的一篇题为“使用序列对序列模型的直接语音到语音翻译”的论文中得到了更详细的阐述 。
Translatotron的发布是在谷歌推出SpecAugment一个月后出现的,SpecAugment是一种人工智能模型,它使用计算机视觉和多种技术从光谱图像中理解单词 。
Translatotron可以应用于类似Google Assistant的口译模式,该模式在今年1月首次面向家庭演讲者 。口译模式能够以27种语言进行听力和语音翻译 。像谷歌和微软这样的公司也在使用他们的语言翻译作为赢得iOS用户的一种方式 。
Translatotron是谷歌在机器翻译和语言处理方面的最新进展 。
上周,在谷歌的I/O开发者大会上,谷歌分享到,它缩小了其反复出现的神经网络和语言理解模型,用于智能手机设备上的机器学习,使谷歌的速度提高了10倍 。谷歌还推出了镜头翻译,这样你的相机就可以翻译100多种语言 。

    推荐阅读