php – 如何知道被删除的网站是否已更改?
发布时间:2020-12-13 17:51:19 所属栏目:PHP教程 来源:网络整理
导读:我正在使用 PHP来抓取网站并收集一些数据.这一切都是在不使用正则表达式的情况下完成的.我正在使用php的explode()方法来查找特定的HTML标签. 如果网站的结构发生变化(CSS,HTML),则刮刀可能会收集错误的数据.所以问题是 – 我如何知道HTML结构是否已经改变?
我正在使用
PHP来抓取网站并收集一些数据.这一切都是在不使用正则表达式的情况下完成的.我正在使用php的explode()方法来查找特定的HTML标签.
如果网站的结构发生变化(CSS,HTML),则刮刀可能会收集错误的数据.所以问题是 – 我如何知道HTML结构是否已经改变?如何在将任何数据存储到我的数据库之前识别它,以避免存储错误的数据.
如果您正在抓取内容发生变化的页面,我认为您没有任何干净的解决方案.
我已经开发了几个python scraper,我知道当网站对其布局进行微妙的改变时,怎么会令人沮丧. 你可以尝试一个机械化的解决方案(不知道php对应物),如果你很幸运,你可以隔离你需要提取的内容(链接?). 另一种可能的方法是编码一些约束并在存储到db之前检查它们. 例如,如果您要抓取Url,则需要验证刮刀所解析的内容是否正式为有效的Url;对于整数ID或您想要刮除的任何内容都可以被识别为有效. 如果您正在抓取纯文本,则检查起来会更加困难. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |