加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

算法 – 如何确定两个网页是否相同?

发布时间:2020-12-14 23:51:24 所属栏目:资源 来源:网络整理
导读:有什么技术有助于检测网页是否与另一个网页相同? 同样,我不是指char-for-char等同的(这很简单),但是足够强大,可以忽略页面上的当前日期/时间等. 例如,去Yahoo! News文章加载页面,在另一个浏览器中10分钟后打开相同的页面. Baring重写,这些页面将有一些差异(
有什么技术有助于检测网页是否与另一个网页相同?

同样,我不是指char-for-char等同的(这很简单),但是足够强大,可以忽略页面上的当前日期/时间等.

例如,去Yahoo! News文章加载页面,在另一个浏览器中10分钟后打开相同的页面. Baring重写,这些页面将有一些差异(时间戳,可能的事情,如广告,如相关的故事),但一个人可以看看这两个,并说他们是一样的.

注意我并不想修复(或依赖)URL归一化.即,找出foo.html& foo.html?bar = bang是一样的

解决方法

这听起来像是通过强大的方法来衡量两页的相似性.

鉴于页面的结构不会改变太多,我们可以减少测试页面上的文本是否大致相同的问题.当然,这个the problems alluded to by nickf关于摄影师页面的方法仍然存在,但是如果你主要关心雅虎的消息或者这样的话就可以了.

要与页面进行比较,您可以使用称为“字符串内核”的机器学习方法.这是paper年初,最近一套slides的R包和video lecture.

非常粗略地说,一个字符串内核会查找有多少单词,一对单词,三个单词等两个文档有共同之处.如果A和B是两个文件,k是一个字符串内核,那么k(A,B)的值越高,两个文档就越相似.

如果您设置了一个阈值t,并且只说两个文档对于k(A,B)>相同.你应该有一个相当好的方式做你想要的.当然,您必须调整阈值以获得应用程序的最佳结果.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读