加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

ajax – 站点抓取:等待站点完全加载

发布时间:2020-12-16 02:53:21 所属栏目:百科 来源:网络整理
导读:我需要下载以下网页: http://m.10bet.com/#leage_panel#10096 这是一个体育博彩页面,我需要报价.所以,首先这看起来很简单.但是,这是发生的事情(您可以使用例如浏览器的开发人员工具来检查): 打开URL 页面加载一个初始HTML,随后调用ajax请求来检索引号 然而
我需要下载以下网页: http://m.10bet.com/#leage_panel#10096

这是一个体育博彩页面,我需要报价.所以,首先这看起来很简单.但是,这是发生的事情(您可以使用例如浏览器的开发人员工具来检查):

>打开URL
>页面加载一个初始HTML,随后调用ajax请求来检索引号
>然而,引用包含在json中但是它们被模糊化,因此不可能直接从ajax调用中解析它们.此外,网页的javascript也被混淆了.所以没有机会直接读取请求中的引号.

相反,我需要使用能够评估javascript的无头浏览器. HtmlUnit for java是不够的,因为它不提供强大的JavaScript功能.因此,PhantomJS与CasperJS的结合是我目前的选择.我使用以下脚本应用CasperJS:

var casper = require('casper').create();

casper.start('http://m.10bet.com/#leage_panel#10096',function() {
    var url = 'http://m.10bet.com/#leage_panel#10096';
    this.download(url,'10bet.html');
});

casper.run(function() {
    this.echo('Done.').exit();
});

但是,此脚本不会加载整个页面.只是初始页面.如何加载浏览器中显示的完整网页?

解决方法

该脚本看起来是一个好的开始,但是一旦你的(HTML)页面加载,(CasperJS)脚本就会停止,因为你没有给它任何更多的指令.解决这个问题的最简单方法是进入睡眠状态几秒钟,然后刮掉页面:

var casper = require('casper').create();
var fs=require('fs');

casper.start('http://m.10bet.com/#leage_panel#10096',function() {
    this.wait(2000,function() {
        fs.write("10bet.html",this.getHTML() );
   });
});

casper.run();

2000毫秒的暂停是原始的,原因有两个:

>如果数据加载的速度比您浪费时间的速度快.
>如果加载速度较慢,则脚本不起作用.

所以最好在页面上标识出你想要的东西,然后使用Casper的waitForXXX()函数.请参阅此处开始的API文档:http://casperjs.readthedocs.org/en/latest/modules/casper.html#waitfor

另外一点,我猜你实际上并不想要整个HTML页面,只是其中的数据. getHTML()接受一个参数来过滤收到的内容.例如.在你的情况下,getHTML(‘#league_block’)可能会更有用.再次,请参阅API文档以获取更多想法.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读