skill的替换词 skill是什么意思

2019年全球语音交互市场规模达到13亿美元 , 预计2025年全球语音交互市场规模将69亿美元 , 目前以广泛应用到智能家居、车载语音、智能客服等行业和场景 。笔者从事语音交互产品一年有余 , 针对语音交互的概念定义、优劣势、适用场景和产品、未来发展等进行梳理总结 。
1. 什么是语音交互?语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递 。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:
(1)ASR
用于将声学语音进行分析 , 并得到对应的文字或拼音信息 。语音识别系统一般分训练和解码两阶段:

  • 训练即通过大量标注的语音数据训练数学模型 , 通过大量标注的文本数据训练语言模型;
  • 解码 , 即通过声学和语言模型将语音数据识别成文字 。
声学模型可以理解为是对发生的建模 , 它能够把语音输入转换成声学表示的输入 , 更准确的说是给出语音属于某个声学符号的概率 。语言模型的作用可以简单理解为消解多音字问题 , 在声学模型给出发音序列之后 , 从候选的文字序列中找出概率最大的字符串序列 。
(2)NLP
用于将用户的指令转换为结构化的、机器可以理解的语言 。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分 。
以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟” , 意图是“新建闹钟” , 词槽是“明天8点” 。这样 , 就将用户的意图拆分成机器可以处理的语言 。
(3)Skill
也即AI时代的APP 。Skill的作用就是:处理NLP界定的用户意图 , 做出符合用户预期的反馈 。
(4)TTS
即语音合成 , 从文本转换成语音 , 让机器说话 。TTS业内普遍使用两种做法:一种是拼接法 , 一种是参数法 。
  • 拼接法即从事先录制的大量语音中 , 选择所需的基本发音单位拼接而成 。优点是语音的自然度很好 , 缺点是成本太高 , 费用成本要上百万 。参
  • 数法指使用统计模型来产生语音参数并转化成波形 。优点是成本低 , 一般价格在20万~60万不等 , 缺点是发音的自然度没有拼接法好 。但是随着模型的不断优化 , 现在参数法的效果已经非常好了 , 因此业内使用参数法的越来越多 。

2. 语音交互有哪些优劣势?PART 1: 语音交互的优势优势1:信息传递效率高
百度语音开放平台的研究结果显示 , 相比于传统的键盘输入 , 语音输入方式在速度及准确率方面更具优势 。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍 , 信息传递效率进一步可拆分为4类:
  1. 检索高效:针对复杂的输入词 , 尤其是在输入方式不便的场景下 , 语音交互更高效 。例如电视场景下进行电影搜索 。
  2. 跨空间便捷:远场语音交互可以百思特网跨3~5米进行交流 , 针对需要跨空间的操作 , 语音交互更高效 , 例如:智能家居控制 。
  3. 跨场景便捷:语百思特网音交互的潜在好处时可以根据说话内容自动判断意图场景 , 在需要频繁跨场景交互的场景下语音交互更高效 。
  4. 支持组合指令:语音交互可以一次性下达多条指令 , 然后分别执行 , 在需要支持多意图同时传递的场景下语音交互更高效 。假设你今晚想要看一部电影 , 你可以选百思特网择说:“播放刘德华的电影电影要四星以上并且是免费观看的 。”

    推荐阅读