php – 如何仅加载html(并跳过媒体文件)

发布时间：2020-12-13 16:17:56 所属栏目：PHP教程来源：网络整理

导读：我正在优化我的简单网络爬虫(目前使用 PHP / curl_multi). 目标是在智能的同时抓取整个网站,并滑动非HTML内容.我尝试使用nobody,并且只发送HEAD请求,但这似乎并不适用于每个网站(某些服务器不支持HEAD),导致exec长时间暂停(有时比加载页面本身长得多). 有没

我正在优化我的简单网络爬虫(目前使用 PHP / curl_multi).

目标是在智能的同时抓取整个网站,并滑动非HTML内容.我尝试使用nobody,并且只发送HEAD请求,但这似乎并不适用于每个网站(某些服务器不支持HEAD),导致exec长时间暂停(有时比加载页面本身长得多).

有没有其他方法来获取页面类型而不下载整个内容或强制CURL放弃下载,如果文件不是HTML？

(编写我自己的http客户端不是一个选项,因为我打算以后使用CURL函数作为cookie和ssl).

解决方法

我没试过,但是我看到了CURLOPT_PROGRESSFUNCTION.我打赌你可以逐步读取响应以查找内容类型标题,如果你对下载的内容不感兴趣,则可能是 curl_close()句柄.

CURLOPT_PROGRESSFUNCTION     The name of a callback function
where the callback function takes three parameters. The first is the
cURL resource,the second is a file-descriptor resource,and the 
third is length. Return the string containing the data.

http://www.php.net/manual/en/function.curl-setopt.php

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!