【亚马逊的人工智能改善了语音的情感检测】
从某人声音的音调中可以得到很多东西 , 这是一种自然的情感管道 。情绪有一系列的应用:它可以通过帮助检测痴呆或心脏病发作的早期迹象来帮助健康监测 , 它有可能使会话AI系统更吸引人和更有反应 。总有一天 , 情感甚至可能提供隐性反馈 , 帮助谷歌助理、苹果Siri和亚马逊Alexa等语音助理从错误中吸取教训 。
情绪分类人工智能并不是什么新的东西 , 但传统的方法是受监督的 , 这意味着他们摄入根据说话者的情绪状态标记的训练数据 。亚马逊的科学家们最近采取了一种不同的方法 , 他们在一篇预定在声学、语音和信号处理国际会议上发表的论文中描述了这一点 。他们没有提供一个详尽注释的“情感”语料库来教授一个系统 , 而是提供了一个对抗性的自动编码器 , 一个公开可用的数据集 , 其中包含来自10个不同说话者的10 , 000个话语 。结果呢? 神经网络在判断人们声音中的价态或情感价值方面的准确性高达4% 。
这项研究基于亚马逊Alexa团队正在进行的努力 , 从用户的声音中可靠地确定用户的情绪或情绪状态 。
正如论文合著者和Alexa语言组高级应用科学家Viktor Rozgic在一篇博客文章中解释的那样 , 对抗性自动编码器是由编码器组成的两部分模型 , 它学习产生编码训练示例所有属性的输入语音的紧凑(或潜在)表示 , 以及一个解码器 , 它从紧凑表示中重建输入 。
研究人员的情绪表示由三个网络节点组成 , 三个情绪度量中的每一个节点:价态、激活(无论说话人是警觉的、参与的还是被动的)和支配(无论说话人是否感觉到控制了情况) 。培训分三个阶段进行 , 第一阶段包括使用没有标签的数据单独培训编码器和解码器 。在第二阶段 , 对抗性训练-一种技术 , 在这种技术中 , 对抗性鉴别器试图区分编码器产生的真实表示调整编码器 。在第三阶段 , 编码器被调谐以确保潜在的情感表示预测训练数据的情感标签 。
在涉及句子级特征表示的“手工工程”来捕获关于语音信号的信息的实验中 , 研究人员报告说 , 他们的人工智能系统在评估价态方面比常规训练的网络了3%的更好的准确性 。此外 , 他们说 , 当网络被提供一系列表示20毫秒帧或音频片段的声学特性时 , 改进是4% 。
亚马逊不是唯一一家研究改进的基于语音的情感检测的公司 , 值得注意 。麻省理工学院媒体实验室SpinoffAffectiva最近展示了一个神经网络 , SoundNet , 它可以在1.2秒内从音频数据中对愤怒进行分类-就在人类感知愤怒所需的时间内-而不管说话者的语言如何 。同时 , 创业公司Cogito的AI被退伍事务部用来分析创伤后应激障碍退伍的声音 , 以确定他们是否需要立即帮助 。
推荐阅读
- 肝病有什么忌口的不能吃什么 日常饮食禁忌
- 上海地铁运营时间 上海地铁2号线运营时间
- 鹦鹉可以吃什么水果
- 最霸气的微信朋友圈说说 微信朋友圈说说短句子霸气
- 评测ios9输入法很卡怎么办怎么样及如何查看苹果iPhone激活锁是否开启
- win7本地连接在哪里
- 白内障手术需要多少钱 白内障手术多少天能好
- 水彩笔弄到衣服上怎么洗掉
- 鹦鹉多大可以繁殖