加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

php – 如何仅加载html(并跳过媒体文件)

发布时间:2020-12-13 16:17:56 所属栏目:PHP教程 来源:网络整理
导读:我正在优化我的简单网络爬虫(目前使用 PHP / curl_multi). 目标是在智能的同时抓取整个网站,并滑动非HTML内容.我尝试使用nobody,并且只发送HEAD请求,但这似乎并不适用于每个网站(某些服务器不支持HEAD),导致exec长时间暂停(有时比加载页面本身长得多). 有没
我正在优化我的简单网络爬虫(目前使用 PHP / curl_multi).

目标是在智能的同时抓取整个网站,并滑动非HTML内容.我尝试使用nobody,并且只发送HEAD请求,但这似乎并不适用于每个网站(某些服务器不支持HEAD),导致exec长时间暂停(有时比加载页面本身长得多).

有没有其他方法来获取页面类型而不下载整个内容或强制CURL放弃下载,如果文件不是HTML?

(编写我自己的http客户端不是一个选项,因为我打算以后使用CURL函数作为cookie和ssl).

解决方法

我没试过,但是我看到了CURLOPT_PROGRESSFUNCTION.我打赌你可以逐步读取响应以查找内容类型标题,如果你对下载的内容不感兴趣,则可能是 curl_close()句柄.

CURLOPT_PROGRESSFUNCTION     The name of a callback function
where the callback function takes three parameters. The first is the
cURL resource,the second is a file-descriptor resource,and the 
third is length. Return the string containing the data.

http://www.php.net/manual/en/function.curl-setopt.php

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读