加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

linux – 如何让wget只下载页面而不是css图像等?

发布时间:2020-12-13 18:09:37 所属栏目:Linux 来源:网络整理
导读:我想使用wget下载整个网站,但我不想让wget下载图像,视频等. 我试过了 wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″ 但是当我这样做时,它不会
我想使用wget下载整个网站,但我不想让wget下载图像,视频等.

我试过了

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

但是当我这样做时,它不会下载.php文件,只需下载静态.html文件.

wget有解决这个问题的方法吗?

解决方法

你明确告诉wget只接受以.html作为后缀的文件.

假设php页面有.php,你可以这样做:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

请注意,这将下载渲染的html,而不是php的源代码.如果页面足够动态,您可能无法获得所期望的渲染结果.

但是,我建议像httrack这样的另一个工具可以做得更好 – 这取决于你需要做什么.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读