Python打印scrapy蜘蛛抓取树结构的方法
发布时间:2020-12-16 19:58:24 所属栏目:Python 来源:网络整理
导读:本篇章节讲解Python打印scrapy蜘蛛抓取树结构的方法。供大家参考研究。具体如下: 通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 #!/usr/bin/env pythonimport fileinput,refrom collections import defaultdictdef prin
本篇章节讲解Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下: 通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 #!/usr/bin/env python import fileinput,re from collections import defaultdict def print_urls(allurls,referer,indent=0): urls = allurls[referer] for url in urls: print ' '*indent + referer if url in allurls: print_urls(allurls,url,indent+2) def main(): log_re = re.compile(r'<GET (.*?)> (referer: (.*?))') allurls = defaultdict(list) for l in fileinput.input(): m = log_re.search(l) if m: url,ref = m.groups() allurls[ref] += [url] print_urls(allurls,'None') main() 希望本文所述对大家的Python程序设计有所帮助。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |