加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

Python – 整个网页的urlretrieve

发布时间:2020-12-20 13:27:19 所属栏目:Python 来源:网络整理
导读:使用urllib.urlretrieve(‘http://page.com’,’page.html’)我可以保存索引页面,只保存page.com的索引??. urlretrieve是否处理类似于wget -r的内容,让我下载整个网页结构以及page.com的所有相关html文件? 问候 解决方法 不是直接的. 如果你想在整个网站上
使用urllib.urlretrieve(‘http://page.com’,’page.html’)我可以保存索引页面,只保存page.com的索引??. urlretrieve是否处理类似于wget -r的内容,让我下载整个网页结构以及page.com的所有相关html文件?

问候

解决方法

不是直接的.

如果你想在整个网站上蜘蛛,请查看mechanize:http://wwwsearch.sourceforge.net/mechanize/

这将允许您加载页面并从中跟踪链接

就像是:

import mechanize
br = mechanize.Browser()
br.open('https://stackoverflow.com')
for link in br.links():
    print(link)
    response = br.follow_link(link)
    html = response.read()
    #save your downloaded page
    br.back()

就目前而言,这只会让你的页面远离起点.但是,您可以轻松地将其调整为覆盖整个站点.

如果您真的只想镜像整个站点,请使用wget.如果你需要做一些聪明的处理(处理javascript,选择性地跟踪链接等),在python中这样做是值得的.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读