拥有覆盖面广的准确语言模型都会提高所有这些应用程序的质量


帮助计算机更好地学习单词的上下文,以便它们可以更准确地解释正在寻找或说出的内容,这是Google研究团队正在执行的项目的目标 。为了帮助研究人员找到改进的方法来帮助机器确定搜索和查询的上下文,Google正在提供数据集,研究人员可以使用这些数据集来尝试完善计算机“读取”和“听到”单词的方式 。
【拥有覆盖面广的准确语言模型都会提高所有这些应用程序的质量】Google Research产品经理Dave Orr和Google研究科学家Ciprian Chelba在4月30日的Google Research Blog上宣布了这项努力 。
奥尔(Orr)和切尔巴(Chelba)写道:“语言充满歧义,并且可能在令人惊讶的地方出现 。” “没有语境,很难说出许多单词:例如,大多数人会用相同的方式发音“梯子”和“后期” 。
他们写道,移动设备上的键盘输入也存在类似的问题,尤其是对于IME键盘 。例如,当用户在键盘上滑动手指时,“扬基”和“吃”的输入模式看起来相似 。他们写道,这使得设备更加难以知道或准确预测用户最终要寻找的内容 。
那就是语言模型出现的地方,因为它们被用来帮助显示计算机的单词上下文 。“这些用于预测性键盘,还用于语音识别,机器翻译,拼写校正,查询建议等,” Orr和Chelba写道 。“通常,这些都是专门的:查询与网页的词序可能会有很大不同 。无论哪种方式,拥有覆盖面广的准确语言模型都会提高所有这些应用程序的质量 。”
Orr和Chelba写道,Google看到改进语言建模的潜在进展的一个领域是拥有大量标准单词,并带有基准,以便于比较和使用新的建模技术进行实验 。
“为此,我们发布了脚本,该脚本将一组公共数据转换为包含10亿个单词的语言模型,并通过arXiv论文中描述的标准训练和测试方法进行了划分,” Orr和Chelba写道 。“与脚本一起,我们将在一个方便的位置发布经过处理的数据,以及培训和测试数据 。这将使研究社区更容易快速重现结果,我们希望能够加快这些方面的进展任务 。”
所有想要使用数据集的研究人员均可免费使用基准脚本和数据 。
Orr和Chelba写道:“该领域需要一个新的更好的标准基准 。” “目前,研究人员从一系列选择中进行报告,由于缺乏预处理标准,因此很难重现结果 。我们希望这将解决这两个问题,并成为语言建模实验的标准基准 。更多的研究人员使用新的基准,比较将更容易,更准确,并且进度将更快 。”
Google经常使用语言 。2013年12月,Google的翻译服务可帮助人们使用非本国语言与他人进行交流,在其产品中又增加了9种语言(包括非洲的5 种语言),现已提供80种语言的翻译 。

    推荐阅读