微软开源关键字必应搜索搜索算法


不管信不信,关键词查询占了网络搜索的递减部分 。由于Google Lens和Bing Visual Search等工具的支持,计算机视觉算法的驱动超过了它们的公平份额,支持Alexa和Google助手等智能助手的自然语言处理模型也是如此 。越来越多的媒体组合是微软转向另一种AI技术——空间分区树和图形(SPTAG)来更好地解析搜索的原因之一 。它现在可以在开源中使用,还有一些示例技术和附带的视频 。
正如微软在一篇博客文章中所解释的,SPTAG使开发人员能够利用结果发现AI,它通过向量-单词、图像像素和其他数据点的数学表示-以毫秒为单位 。微软说,SPTAG(用C语言编写并由Python封装)是Bing搜索服务的核心,它被用来帮助公司的研究人员“更好地理解”数十亿网络搜索背后的意图 。
要看到它的作用,试着点击搜索查询“巴黎的塔有多高?”在Bing 。它将得到正确的答案-1063英尺-尽管“埃菲尔”一词没有出现在问题中,“高”一词从未出现在结果中 。
【微软开源关键字必应搜索搜索算法】那它是怎么工作的? 分配给数据位的向量可以排列-或映射-在彼此附近表示相似性 。这些近端结果显示给用户;在Bing中,在执行搜索后,对索引向量进行扫描,以提供最佳匹配 。此外,这些任务还被用来训练模型,这些模型考虑输入,比如搜索后的最终用户点击,以“更好地理解搜索的含义” 。
微软表示,Bing Search迄今已收录了超过1500亿条数据,包括单字、字符、网页片段和完整查询 。Bing程序经理Jeffrey Zhu说:“Bing每天处理数十亿个文档,现在的想法是,我们可以将这些条目表示为向量,并通过这个1000亿以上向量的巨大索引进行搜索,在5毫秒内找到最相关的结果 。
Bing团队预计,开放源码SPTAG可以用于构建应用程序,可以根据音频片段识别正在使用的语言,或者可以让用户对花卉拍照并识别其属和种的服务 。
必应集团(Bing Group)项目经理Rangan Majumder说:“当人们问问题或拍照问搜索引擎‘这是什么’时,关键词搜索算法就会失败 。” “我们只是开始探索在这个深度的矢量搜索到底有什么可能 。”

    推荐阅读