微软详细介绍了Speller100 这是一个AI系统可以检查100多种语言的拼写


微软今天在其AI研究博客上的帖子中详细介绍了一种新的语言系统Speller100,该公司声称,就语言覆盖范围和准确性而言,该系统是有史以来最全面的系统之一 。Speller100包含许多可以共同理解100多种语言的AI模型,现在可以在Bing上支持所有拼写纠正功能,而Bing以前仅支持大约20种语言的拼写检查 。
对于几乎没有网络存在的语言,收集足以训练拼写纠正模型的数据量是一个挑战 。而且,系统不能仅仅依靠训练数据来学习语言的拼写 。拼写校正的核心是建立错误模型和语言模型,并非所有错误都是相同的 。例如,当某个单词不在给定语言的词汇表中时,就会发生n个单词错误,而当单词存在但不适合较大的上下文时,就会出现实词错误 。
Speller100围绕语言家族(或基于多种语言共享的相似性的更大语言组)的概念构建 。它还采用了零镜头学习技术,该技术可以使模型学习和纠正拼写,而无需使用其他特定于语言的标注训练数据 。
【微软详细介绍了Speller100 这是一个AI系统可以检查100多种语言的拼写】微软表示,为了将Speller100扩展到100多种语言,微软开发了一种拼写校正预训练方法,该方法依靠功能来提取从网页中提取的文本并生成诸如删除,添加,旋转和替换之类的错误 。这消除了对庞大的拼写错误搜索数据集的需求,使Speller100能够以存在零培训数据的语言,为最优秀的候选者达到50%的更正率 。按原样部署在必应(Bing)上,其中约15%的搜索错误拼写了,它将使错误拼写的数量减少了7.5% 。

    推荐阅读