微软今天在其AI研究博客上的帖子中详细介绍了一种新的语言系统Speller100,该公司声称,就语言覆盖范围和准确性而言,该系统是有史以来最全面的系统之一 。Speller100包含许多可以共同理解100多种语言的AI模型,现在可以在Bing上支持所有拼写纠正功能,而Bing以前仅支持大约20种语言的拼写检查 。
对于几乎没有网络存在的语言,收集足以训练拼写纠正模型的数据量是一个挑战 。而且,系统不能仅仅依靠训练数据来学习语言的拼写 。拼写校正的核心是建立错误模型和语言模型,并非所有错误都是相同的 。例如,当某个单词不在给定语言的词汇表中时,就会发生n个单词错误,而当单词存在但不适合较大的上下文时,就会出现实词错误 。
Speller100围绕语言家族(或基于多种语言共享的相似性的更大语言组)的概念构建 。它还采用了零镜头学习技术,该技术可以使模型学习和纠正拼写,而无需使用其他特定于语言的标注训练数据 。
【微软详细介绍了Speller100 这是一个AI系统可以检查100多种语言的拼写】微软表示,为了将Speller100扩展到100多种语言,微软开发了一种拼写校正预训练方法,该方法依靠功能来提取从网页中提取的文本并生成诸如删除,添加,旋转和替换之类的错误 。这消除了对庞大的拼写错误搜索数据集的需求,使Speller100能够以存在零培训数据的语言,为最优秀的候选者达到50%的更正率 。按原样部署在必应(Bing)上,其中约15%的搜索错误拼写了,它将使错误拼写的数量减少了7.5% 。
推荐阅读
- 左小青饰演娟子电视剧 娟子电视剧
- MIT CSAIL的LaserFactory可以打印功能齐全的无人机
- 白灼虾蘸料是醋还是酱油,白灼虾蘸料怎么调好吃
- 物品交接单怎么写 物品交接单
- Slync.io筹集了6000万美元用于自动化供应链流程
- 生宣纸和熟宣纸的区别和用途,生宣纸和熟宣纸的区别画国画用哪个
- Garner筹集了1200万美元以使员工与高绩效医生匹配
- 微软推出了受限访问功能的自定义神经语音
- 快手咋地才能隐藏作品,快手隐藏作品怎么操作