爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!
最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。 (以后完整代码请前往www.yubowen2003.com 暂时还在建设中,欢迎大家提issue:joy: 。) 简介 该demo采用node.js作为爬虫,为方便,有些地方使用es6语法,如有不懂,欢迎咨询:blush: 步骤
var cheerio = require('cheerio'); var fetch = require('node-fetch'); // cheerio 是一个类似浏览器端的jQuery,用来解析HTML的 // fetch 用来发送请求
// 初始url var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" // 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下 var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是为了防止有相同的而重复爬去 var urls = new Set() // 存储所有数据 var data = [] 至此,我们的准备部分结束了:sweat_smile:,接下来,开始表演了
进群:548377875??即可获取数十套PDF以及大量的学习教程哦! 每行4款,每页是48款,一共16页 思路:
首先我们定义一个函数如下 // 这是得到每个页面的48个链接,并开始发送请求 function ad(arg){ // 参数 arg 先不管 // 本地化一下需要爬取的链接 let url2 = arg || url; // 请求第一页该网页,拿到数据之后,复制给 app var app = await fetch(url2).then(res=>res.text()) // 然后假装用jQuery解析了 var $ = cheerio.load(app) // 获取当前页所有电瓶车的a标签 var ele = $("#J_PicMode a.pic") // 存放已经爬取过的url,防止重复爬取 var old_urls = [] var urlapp = [] //拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的 for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } // 用把URL一块丢给promise处理 urlapp = await Promise.all(old_urls) // 处理完成之后,循环加入jQuery:joy: for (let i = 0; i < urlapp.length; i++) { let $2 = cheerio.load(urlapp[i],{decodeEntities: false}) data.push({ name:$2(".product-model__name").text(),price:$2(".price-type").text() }) } // 至此,一页的数据就爬完了 // console.log(data); 完整代码如下 var cheerio = require('cheerio'); var fetch = require('node-fetch'); var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" var urlRoot = "http://detail.zol.com.cn" // var url = "http://localhost:3222/app1" var urls = new Set() var data = [] async function ad(arg){ let url2 = arg || url; var app = await fetch(url2).then(res=>res.text()) var $ = cheerio.load(app) var ele = $("#J_PicMode a.pic") var old_urls = [] var urlapp = [] for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } urlapp = await Promise.all(old_urls) for (let i = 0; i < urlapp.length; i++) { let $2 = cheerio.load(urlapp[i],price:$2(".price-type").text() }) } (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- python – 尝试将消息发送到远程队列时的pika.exceptions.
- Python中pygame安装方法图文详解
- Python中返回字典键的值的values()方法使用
- python-使用整数数组中与列相关的结束索引的numpy切片
- python-将多嵌套的dict / json加载到熊猫中
- python – 小型学生组之间的代码共享
- 在GAE上爬取最新的小小编的周X乱弹,并生成RSS源
- LOAD DATA LOCAL INFILE sqlalchemy和python到mysql db
- python – Flask:究竟是什么@app [复制]
- python 3.5下xadmin的使用及修复源码bug