网页抓取工具 – 如何抓取数十亿页?
可以在单个服务器上抓取数十亿个页面吗?
解决方法
不是如果你想要的数据是最新的.
即使搜索游戏中的一个小玩家也可以编号爬行数十亿的页面.
并记得引用来自2006年的数字.这是古老的历史.最先进的技术比这更好. 内容新鲜度: >新内容不断增加(现实) 爬行者的礼貌: >你不能压倒任何给定的网站.如果您从同一个IP重复点击任何主要站点,您可以触发CAPTCHA提示符,否则将阻止您的IP地址.网站将根据带宽,请求频率,“坏”页面请求数以及各种其他事情进行此操作. 减少你需要做的工作: 通常,网站通过多个名称暴露自己 – 您将需要检测到相同的页面 – 这可能发生在相同的url或单独的URL上.考虑页面内容的哈希(减去标题,日期/时间不断变化).跟踪这些页面等价物,并在下次跳过或确定是否有一个众所周知的给定站点之间的映射,以便您不必爬网. 所以 – 你总是在爬行的周期.总是.几乎肯定会有几个(很多)机器.以确保您能遵守礼貌,但仍然在数据的新鲜度. 如果要按快进按钮,只需使用自己独特的算法处理页面即可.如果您需要快速搜索,您可以利用预先构建的抓取工具,如Programmable Web所示.他们使用客户端计算能力. 80条腿正在使用孩子们在网站上玩游戏的机器周期.想想一个网页上的后台进程,确实调用,并且在您使用该页面/网站时不起作用,因为它们正在使用Plura技术堆栈.
所以他们通过成千上万个IP上的数千个节点发布“爬行”,并且对网站有礼貌,并且快速爬行.现在我个人不知道我关心使用最终用户浏览器的风格,除非它们在所有使用技术的网站上都被非常清楚地显示出来 – 但是如果没有其他的话,这是一个开箱即用的方法. 还有其他爬虫被编写在社区驱动的项目中,您也可能会使用它们. 正如其他受访者所指出的那样 – 做数学.您每秒需要爬行约2300页,以便每5天抓取1B页.如果你愿意等待更长时间,那么这个数字就会下降.如果你以为你要抓住超过1B的数字就会上升.简单的数学 祝你好运! (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |