大数据分析02——成都二手房(热度)
背景 数据去重 Scrapy运行流程大概如下: 首先,引擎(engine)从调度器(Scheduler)中取出一个链接(URL)用于接下来的抓取 这个Scheduler的中间件不就负责URL的去重吗,然后我去掉request这个模块,让所有的请求都使用Scrapy.requset去发送,果然数据不会再重复了。最终我拿到了2万多条不重复的数据,与链家官方提示的只相差几百条数据,不清除是链家自己有重复的数据,还是我在输入验证码的时候丢失了这部分数据。后期再跟踪吧。但是现在的数据已经可以反应真实情况了。 定位房源 然后,我们想知道现在大家都更关注那个区域的房源,于是我把楼盘“看房数”和"关注数"堆叠起来作为关注度,得到下图: 看来天府新区和高新区限购后,大家都开始看周边的房子,比如龙泉驿,温江,双流。 那么究竟有哪些比较火的楼盘了,继续把“看房数”和"关注数"加起来,然后对“看房数”和"关注数"大于200的做个过滤(这里的price是总价): 刚好公司一位同事也准备买房子,他想在双流买一套二的,价格在60-90w,我们利用他给的条件加上“热度”,我过滤出下面数据: 最后,看看我们的数据都集中在哪些地区吧,这里度量我们用的平均价格,对应图标,越红表示价格越高,楼盘越多: 谢谢观看,觉得不错的朋友点个赞呗。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |