用Golang写一个搜索引擎(0x05)--- 文本相关性排序
上面我们已经说过了一些倒排索引的东西,并且也知道了如何来实现一个倒排索引完成检索功能,那么检索完了以后如何排序呢,这一篇简单的说一下倒排索引的文本相关性排序,因为排序实在是太复杂了,我们这里就说说文本的相关性排序,而且是最简单的TD-IDF排序,之后有机会可以再说说整个搜索的排序算法有些什么。 文本相关性排序首先明白几个概念:
如何在一堆文章中找到包含关键词的文章,倒排索引技术已经帮我们解决了,只要分词分得准确,那么找文章没什么问题了。问题是找到一堆文章以后怎么进行排序,让最重要的文章排在最前面,这里介绍一下相关性排序。 TF-IDF相关性排序上面我们看到TF和IDF的概念,TF明显作用就是表示一个term在文章中的重要程度,TF越高那么这个词在文章中的重要程度越明显,IDF呢,IDF主要用来描述term在整体文章中的重要程度(也就是区分程度),IDF越高,那么这个term的整体重要性越高,也就是区分度越大,越能体现这个term的重要性。 为什么用log呢?其实我个人觉得啊,用不用log其实区别没那么大,TF-IDF只是一种计算文本相关度的思想,并不是一个有严格证明的公式,所以用不用log区别不大,不过从信息论的角度看的话,妖人香农提出的信息量的公式就是logX的样子,值越大信息量就越大,正好可以套在我们这,IDF越大,信息量也越大。
TF和IDF合起来表示这个term的相关性,就是把这两个值乘起来。 为什么要把这两个概念合起来呢,第一个TF已经可以描述term的重要性了,为什么还要用IDF呢,主要可以解决两个问题。
最后,多个term联合检索的时候,他们的相关性就是每一个term的TF-IDF加起来, OK,TF-IDF就是这些了,实现的时候,如果是最初做全量索引的话,由于整体文档数是已知的,那每个term的TF-IDF一般是建立索引的时候就把它算好了,检索的时候按这个一排序就行了,我实现的时候由于没有全量索引的概念,所以只是在每添加一个文档的时候算好这个文档的TF存起来,检索的时候通过term倒排召回的文档数来确定IDF的值,实时算出TF-IDF的,如果是非常巨大的文档数量,那么实时算还是很吃亏的,所以说全量索引还是非常必要的,只是我这没有完整实现全量索引建立而已,但后面接下来我会说说全量索引如何建立。 词距除了TF-IDF来进行相关性排序以外,还有一些其他的文本因素也可以用在排序上,一是term的距离,也就是词距,如果检索关键词是 所以,为了保持词距的信息,我们在存储倒排的时候还需要将每个term的位置信息保存下来,检索的时候用过这些个位置信息计算各个词直接的词距,从而和TF-IDF合在一起来表述文本相关性。 位置信息同时,除了词距以外,还有一个因素也影响相关度的排序,那就是term的位置,这个也很好理解,如果在 其他模型除了直接使用TF-IDF以外,现在还有很多其他的文本相关性的排序模型,比如BM25这种以概率为基础的排序模型,这里就不展开了,如果大家有兴趣,写完这些篇以后可以专门写几篇怎么排序的,包括文本排序,以及文本之后的重要性排序啊,怎么离线利用机器学习计算文档重要性来排序之类的,在说排序的时候我们会说一下如何将这些个所有的东西【文本相关性,词距,位置,重要性,销量,点击等】合起来进行打分 下面一篇文章会再讲讲倒排索引存储的一些我没有实现的东西,比如索引压缩之类的,然后会讲讲如何建立倒排,如果进行增量添加文档,如何进行索引合并。 最后,欢迎大家扫描一下下面的微信公众号订阅,首先会在这里发出来:) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |