python爬虫练习——爬取链家二手房信息(基础篇)
发布时间:2020-12-20 10:51:41 所属栏目:Python 来源:网络整理
导读:# -*- coding:utf-8 -*- from lxml import etree import requeststotal_money = 0total_number = 0headers = { ‘ User-Agent ‘ : ‘ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/65.0.3325.162 Safari
# -*- coding:utf-8 -*- from lxml import etree import requests total_money = 0 total_number = 0 headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/65.0.3325.162 Safari/537.36‘ } for i in range(1,101): url = "https://bj.lianjia.com/ershoufang/pg" + str(i) + "/" response = requests.get(url,headers = headers) response.encoding = ‘utf8‘ html = response.text root = etree.HTML(html) node_list = root.xpath("//div/@data-price") #data-price = "51891" total_number += len(node_list) for node in node_list: total_money += float(node) average = total_money // total_number print average 上文中,最后输出的是单价平均数。 先说下简单思路。观察发现,链家二手房北京地区总共展示了100页,首先想到的是将这100页的房源单价信息加总起来,然后再把这100页的房源数加起来,相除便可获得单价的平均数。 上面的程序跑完后,的确可以跑出一个平均数。但最开始观察就发现,页面显示的总房源有好几万套,而当前展示的100页的套数3000(100*30)和总数差的可不是丁点。所以想到肯定还有n多页没有展示出来,突然又意识到,地址上我配置成101会不会就显示出101页呢?有一瞬间竟为自己的小聪明窃喜过、、、结果,试了后,当然不行,早该想到没有这么简单! 发现了问题后,也就知道下一步要做什么了。后续的将再一步一步完善了。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |