玩爬虫就是一场无形的世界大战!爬虫是武器!手机是不知情的士兵
编者按:在互联网的世界中,尤其是零售领域,一直都在经历着一场无形的数据战争,它们的武器是爬虫技术,我们每一个参与者,可能就是一名不知情的士兵。日前,《连线》杂志发表了一篇文章,详细介绍了这一现象。 进群:548377875? ?即可获取数十套PDF以及大量的学习教程哦!从零基础到项目实战的! 许多公司正在网上发动一场无形的数据战争。你的手机可能是一名不知情的士兵。 在零售领域,从亚马逊、沃尔玛到小型创业公司的都想知道竞争对手收取的费用是多少。基于实体店的零售商可以派人——有时被称为“神秘购物者”,假装去竞争对手的商店购物,然后记下价格。 在线上,虽然没必要把人送到其他地方,但是一个大型零售商可以销售数百万种产品。所以,让人浏览每一种商品并手动调整价格是不可行的。相反,这些公司使用软件扫描竞争对手的网站并收集价格,这一过程被称为“爬虫”(scraping)。基于此,公司可以调整自己商品的价格。 零售价格优化公司Competera的首席执行官亚历山大·高尔金(Alexandr Galkin)说,亚马逊和沃尔玛等公司有专门的内部团队负责收集数据。其他公司则会转向像它们这样的公司获取服务。Competera从网上搜集从鞋类零售商 Nine West 到工业装备商 Deelat等公司的价格数据,并使用机器学习算法帮助其客户决定不同产品的价格。 亚马逊没有回答这些行为是否会影响其他网站的问题。但是根据布拉德·斯通的著作《万货商店》(The Everything Store),亚马逊在2010年收购的Diapers.com的创始人指责亚马逊使用这种机器人来自动调整价格。 爬虫听起来可能很邪恶,但这是网络运作的一部分。谷歌和必应(Bing)抓取网页为它们的搜索引擎编制索引。学者和记者使用爬虫软件收集数据。Competera 包括宏碁欧洲和松下在内的一些的客户,也会使用该公司的“品牌情报”服务来查看零售商对其产品收取的费用,以确保它们遵守定价协议。 对于零售商来说,爬虫可能是双向的,这是事情变得有趣的地方。零售商不仅想看看它们的竞争对手在做什么,也想阻止竞争对手窥探它们;零售商也希望保护知识产权,如产品照片和描述,这些照片和描述可以被其他公司爬去并重新使用。 Akamai Technologies 网络安全副总裁乔希·沙乌尔(Josh Shaul)说,许多公司都会部署防御措施来反爬虫。一种技术是:向真实的人显示不同的价格,而不是向机器人显示不同的价格。有些网站可能会对收集数据的机器人将价格显示为天文数字或零。 这种防御为新的犯罪创造了机会。一家名为Luminati的公司帮助客户,包括Competera,通常都会伪装机器人以避免被发现。其中有一项服务,可以使机器人看起来像是来自智能手机的访问。 Luminati的服务像是一个僵尸网络,一个运行恶意软件的计算机网络,黑客用它来发动攻击。 然而,Luminati 并没有秘密地接管设备,而是诱使设备所有者接受它的软件和另一个应用程序。 比如,从 Beka 下载 MP3 Cutter 的安卓用户可以选择:浏览广告或允许应用程序使用“你设备的一些资源(WiFi 和非常有限的蜂窝数据)。”如果你同意让这个应用程序使用你的资源,Luminati 会每天使用你的手机几秒钟,当它闲置的时候可以路由客户机器人的请求,并向应用制造商支付费用。 Beka 没有回应记者的置评请求。 正在进行的机器人和鼠标之战提出了一个问题:你如何检测一个机器人?这很棘手。有时候,机器人实际上会告诉它们正在访问的网站它们是机器人。当一个软件访问web服务器时,它会发送一点信息以及它对页面的请求。传统浏览器宣称自己是谷歌Chrome、微软Edge或其他浏览器。机器人可以用这个过程告诉服务器它们是机器人。但是它们也可以撒谎。检测机器人的一种技术是访问者访问网站的频率。如果访问者每分钟提出数百个请求,就很有可能是机器人。另一种常见的做法是查看访问者的互联网协议地址。例如,如果它来自云计算服务,这暗示它可能是机器人,而不是普通的互联网用户。 沙乌尔说,伪装机器人流量之类的技术使得依赖互联网地址“几乎毫无用处”。 Captchas可以提供帮助,但是它们会给合法用户带来不便。 所以 Akamai 正在尝试一些不同的东西。 它不仅仅寻找机器人的共同行为,也在寻找人类的共同行为,并让这些用户通过。 当你点击手机上的一个按钮时,你的手机就会轻轻的移动。手机的加速度计和陀螺仪可以检测到这种移动,并发送到Akamai的服务器。微小移动数据的存在是证明用户是人类的线索,它的缺失则是用户可能是机器人的线索。 Luminati的首席执行官奥弗·维伦斯基(Ofer Vilenski)表示,该公司还没有提供一个能解决这个问题的方法,因为这是一个相对不常见的做法。 但是沙乌尔认为,机器人制造商们找到应对方式只是时间问题。 然后就是新一轮创新的时候了。 互联网机器人军备竞赛也是如此。 好机器人和坏机器人 对于Akamai和其他试图管理机器人相关流量的公司来说,一个巨大挑战是需要允许一些但不是所有的机器人来抓取网站上的数据。如果网站完全屏蔽了机器人,它们就不会出现在搜索结果中。零售商通常也希望他们的商品和价格出现在价格比较网站上,比如谷歌购物和Price Grabber 。 “真的有很多不同的场景,爬虫在互联网上被用于好的,坏的,或者在中间地带的某个地方,”沙乌尔说。 “我们在Akamai有一大批客户来帮助我们,处理机器人而不是人类访问它们网站的整体问题。” 一些公司也会爬自己的网站。安德鲁·福格(Andrew Fogg)是一家名为Import.io的公司的联合创始人,该公司提供基于网络的工具来收集数据。福格说,io的一个客户是一家大型零售商,有两个库存系统,一个用于仓库操作,一个用于电子商务网站。但是这两个系统经常不同步。因此,该公司需要爬自己的网站,来寻找差异。该公司可以更紧密地整合其数据库,至少在短期内,使用爬虫来收集数据更具成本效益。 其他的爬虫则运用于灰色地带。沙乌尔以航空业为例。旅游价格比较网站可以给航空公司带来业务,航空公司希望它们的航班显示在这些网站的搜索结果中。但是许多航空公司依靠像Amadeus IT和Sabre这样的外部公司来管理它们的预订系统。当你通过这些航空公司查询航班信息时,航空公司有时必须向订票系统付费。如果大量机器人不断巡检航空公司各个航班的座位和价格信息,这些费用就会增加。 沙乌尔说,Akamai通过展示机器人缓存的定价信息帮助一些航空公司客户解决了这个问题,这样航空公司就不会在机器人每次检查价格和可用性时都询问外部公司。机器人不会得到最新的信息,但是他们会得到合理的新数据,而不会给航空公司带来太多的成本。 然而,其他流量显然是有问题的,例如分布式拒绝服务( DDoS )攻击,其目的是通过向网站灌输流量来攻击一个网站。例如,一位发言人说,亚马逊并没有完全阻止机器人,包括价格爬虫。但是该公司确实“在需要的时候优先考虑人类而不是机器人,以确保我们提供给顾客更好的亚马逊购物体验。” 福格说Import.io并没有被阻止太多。该公司试图成为一个“好公民”,防止其软件过于频繁地访问服务器或使用大量资源。 维伦斯基说,Luminati 的客户有充分的理由假装成不是机器人。例如,一些出版商希望确保广告商向网站的用户展示的广告,和它们向出版商展示的广告一样。 尽管如此,该公司的商业模式在2015年引起了人们的关注,当时其姊妹公司 Hola VPN 的一项类似服务被用来对8chan网站发起 DDoS 攻击。 本月早些时候,Hola VPN 的 Chrome 扩展被指责用于窃取加密货币服务 MyEtherWallet 用户的密码。 在一篇博客文章中,Hola VPN 称其谷歌 Chrome 商店账户已经被侵入,攻击者在扩展中添加了恶意软件。 维伦斯基说,公司会仔细审查客户,包括用视频电话和一些步骤来验证潜在客户的身份。 他拒绝就Luminati服务的恶意用途发表评论。 不管有没有争议, 维伦斯基说,公司的业务在过去的一年里增长了三倍。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |