curl实现站外采集的方法和技巧
选择curl的理由 关于curl与file_get_contents,摘抄一段通俗易懂的对比: 使用方法 1、开启curl支持 由于php环境安装后默认是没有打开curl支持的,需修改php.ini文件,找到;extension=php_curl.dll,把前面的冒号去掉,重启服务即可; 2、使用curl进行数据抓取 代码如下: // 初始化一个 cURL 对象
$curl = curl_init(); // 设置你需要抓取的URL curl_setopt($curl,CURLOPT_URL,'http://www.cmx8.cn'); // 设置header curl_setopt($curl,CURLOPT_HEADER,1); // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。 curl_setopt($curl,CURLOPT_RETURNTRANSFER,1); // 运行cURL,请求网页 $data = curl_exec($curl); // 关闭URL请求 curl_close($curl); 3、通过正则匹配找到关键数据 代码如下: //$data是curl_exec返回的的值,即采集的目标内容
preg_match_all("/ foreach($out as $key => $value){ //此处$value是数组,同时记录找到带匹配字符的整句和单独匹配的字符 echo '匹配到的整句:'.$value[0].' '; echo '单独匹配到的:'.$value[1].' '; } 技巧 1、超时的相关设置 通过curl_setopt($ch,opt) 可以设置一些超时的设置,主要包括: CURLOPT_TIMEOUT 设置cURL允许执行的最长秒数。 代码如下: curl_setopt($ch,CURLOPT_TIMEOUT,60); //只需要设置一个秒的数量就可以
curl_setopt($ch,CURLOPT_NOSIGNAL,1); //注意,毫秒超时一定要设置这个 curl_setopt($ch,CURLOPT_TIMEOUT_MS,200); //超时毫秒,cURL 7.16.2中被加入。从PHP 5.2.3起可使用 2、通过post提交数据,保留cookie 代码如下: //以下摘抄一个例子过来,用于学习借鉴: //Curl 模拟登录 discuz 程序,适合DZ7.0 !extension_loaded('curl') && die('The curl extension is not loaded.'); $discuz_url = 'http://www.lxvoip.com';//论坛地址 $login_url = $discuz_url .'/logging.php?action=login';//登录页地址 $get_url = $discuz_url .'/my.php?item=threads'; //我的帖子 $post_fields = array(); //以下两项不需要修改 $post_fields['loginfield'] = 'username'; $post_fields['loginsubmit'] = 'true'; //用户名和密码,必须填写 $post_fields['username'] = 'lxvoip'; $post_fields['password'] = '88888888'; //安全提问 $post_fields['questionid'] = 0; $post_fields['answer'] = ''; //@todo验证码 $post_fields['seccodeverify'] = ''; //获取表单FORMHASH $ch = curl_init($login_url); curl_setopt($ch,0); curl_setopt($ch,1); $contents = curl_exec($ch); curl_close($ch); preg_match('/ if(!empty($matches)) { $formhash = $matches[1]; } else { die('Not found the forumhash.'); } //POST数据,获取COOKIE $cookie_file = dirname(__FILE__) . '/cookie.txt'; //$cookie_file = tempnam('/tmp'); $ch = curl_init($login_url); curl_setopt($ch,1); curl_setopt($ch,CURLOPT_POST,CURLOPT_POSTFIELDS,$post_fields); curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file); curl_exec($ch); curl_close($ch); //带着上面得到的COOKIE获取需要登录后才能查看的页面内容 $ch = curl_init($get_url); curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file); $contents = curl_exec($ch); curl_close($ch); var_dump($contents); (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |