加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Golang 网络爬虫框架gocolly/colly 四

发布时间:2020-12-16 18:22:34 所属栏目:大数据 来源:网络整理
导读:Golang 网络爬虫框架gocolly/colly 四 爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,fi

Golang 网络爬虫框架gocolly/colly 四

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、土豆、校内网、web版qq、网页邮箱等等也都爬过;那时候先用C#写demo,项目是C++的,所以还要转换成托管C++的代码。第一阶段的主要心得是cookie管理,比较难搞的cookie就借助于webbrowser控件。

第二阶段是13年左右,做的是金融数据分析类软件和网络机器人,爬虫编程语言依然借助于C# ,发包收包全靠HttpWebRequest和HttpWebResponse,cookie管理靠CookieContainer,HTML分析靠HtmlAgilityPack,验证码识别靠自己预处理封装过的tesseract,协议分析靠fiddler,元素选择靠浏览器调试器,这套功夫在手基本可以畅游网络,实现的机器人随意游走于博客、微博,自动留言、发帖、评论;各大金融网站、上交所、深交所、巨潮网络、互动平台等等数据任爬。

第三阶段就是现在了。四年多过去了,重新学习审视爬虫技术,发现武器更强大了:go语言,goquery,colly,chromedp,webloop等,强大的语言及工具使爬虫更简单、更高效。

多年的爬虫经验总结了开头那句话。已知的爬虫手段无外乎三大类:一,分析HTTP协议,构造请求;二,利用浏览器控件,获取cookie、页面元素、调用js脚本等;phantomjs、webloop属于此类;第三类是直接操作浏览器,chromedp属于此类;微软还提供了操纵ie浏览器的com接口,很早以前用C++写过,比较难用,代码写起来很恶心,需要较多的条件判断。构造请求直接快速,浏览器控件和操纵浏览器可靠安全,可以省去很多不必要的协议分析、js脚本分析,但速度慢,加载了很多无用的数据、图片等;第二、三种与第一种混用效果更佳,只要表演地越像浏览器就越安全可靠,或者干脆操纵浏览器,只要不超过服务器的人类操作阈值判定,ip基本不会被封。单ip不够用时,就设置代理来切换。

学无止境,不断用新的武器武装自己。下面贡献一个小例子,爬取上交所的AB股股票列表,简单地show下演技。(哈哈哈)

该页面提供了下载功能,A股的下载地址http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1

B股的下载地址http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2

拿到了这个地址就开始Visit了

1
c.Visit( "http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1" )

UserAgent设置成了Chrome

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/63.0.3239.108 Safari/537.36"

  发现不行,程序会报错,

2018/01/03 23:39:27 Forbidden

把这个网址直接在浏览器地址栏中打开也是不行的,会报告“Error 403: SRVE0190E: 找不到文件:/error/error_cn.jsp”

服务端做了些限制,打开fiddler看下协议

  

请求中有一大堆cookie,第一感觉是可能没有加cookie的缘故,于是利用chromedp打开页面,再调用ajax去请求,刚开始ajax没有带cookie也请求成功了,

后来发现关键在于请求头中的“Referer”,有了Referer就行了。

干脆把所有的头补全,更像浏览器些,这不会吃亏:

1
2
3
4
5
6
7
8
9
c.OnRequest( func (r *colly.Request) {
r.Headers.Set( "Host" , "query.sse.com.cn" )
"Connection" "keep-alive" )
"Accept" "*/*" )
"Origin" "http://www.sse.com.cn" )
"Referer" "http://www.sse.com.cn/assortment/stock/list/share/" ) //关键头 如果没有 则返回 错误
"Accept-Encoding" "gzip,deflate" )
"Accept-Language" "zh-CN,zh;q=0.9" )
})

附上完整的代码,将股票保存到CSV文件

9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
package sse
import (
"encoding/csv"
"os"
"strings"
"github.com/gocolly/colly"
)
/*GetStockListA 获取上海证券交易所股票列表
A股
*/
GetStockListA(saveFile string) (err error) {
stocks,err := getStockList( )
if err != nil {
return err
}
err = saveStockList2CSV(stocks,saveFile)
return
}
/*GetStockListB 获取上海证券交易所股票列表
B股
*/
GetStockListB(saveFile string) (err error) {
"http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2" )
err != nil {
err
}
return
}
saveStockList2CSV(stockList string,file string) (err error) {
vals := strings.Split(stockList,monospace!important; font-size:12px!important; min-height:auto!important; color:blue!important">"n" )
f,err := os.Create(file)
err != nil {
err
}
defer f.Close()
fw := csv.NewWriter(f)
for _,row := range vals {
rSplits := strings.Split(row,monospace!important; font-size:12px!important; min-height:auto!important; color:blue!important">"t" )
rSplitsRslt := make([]string,0)
rSplits {
trimSp := strings.Trim(sp,monospace!important; font-size:12px!important; min-height:auto!important; color:blue!important">" " )
len(trimSp) > 0 {
rSplitsRslt = append(rSplitsRslt,trimSp)
}
}
len(rSplitsRslt) > 0 {
err = fw.Write(rSplitsRslt)
err != nil {
err
}
}
}
fw.Flush()
return
}
getStockList(url string) (stockList string,err error) {
//GET http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1 HTTP/1.1
//Host: query.sse.com.cn
//Connection: keep-alive
//Accept: */*
//Origin: http://www.sse.com.cn
//User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/63.0.3239.108 Safari/537.36
//Referer: http://www.sse.com.cn/assortment/stock/list/share/
//Accept-Encoding: gzip,deflate
//Accept-Language: zh-CN,zh;q=0.9`
c := colly.NewCollector()
(r *colly.Request) {
)
)
)
)
) //关键头 如果没有 则返回 错误
)
)
})
c.OnResponse( (resp *colly.Response) {
stockList = string(resp.Body)
})
c.OnError( (resp *colly.Response,errHttp error) {
err = errHttp
})
err = c.Visit(url)
return
}

13
main() {
var err error
err = sse.GetStockListA( "e:sseA.csv" err != nil {
log.Fatal(err)
}
err = sse.GetStockListB( "e:sseB.csv" err != nil {
log.Fatal(err)
}
转载请注明出处:http://www.cnblogs.com/majianguo/p/8186429.html

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

相关内容
推荐文章
站长推荐
热点阅读