goquery使用
做过 Web 开发的,应该都用过或听过 jQuery,它提供了方便的操作 DOM 的 API。使用 Go 语言做服务器端开发,有时候需要解析 HTML 文件,比如抓取网站内容、写一个爬虫等。这时候如果有一个类似 jQuery 的库可以使用,操作 DOM 会很方便,而且,上手也会很快。github.com/PuerkitoBio/goquery 这个库就实现了类似 jQuery 的功能,让你能方便的使用 Go 语言操作 HTML 文档。 1 概述 由于 net/html 解析器要求文档必须是 UTF-8 编码,因此 goquery 库也有此要求。如果文档不是 UTF-8 编码,使用者需要自己转换。进行编码转换,可以使用如下库: 除了实现和 jQuery 类似的功能外,在函数名方面,也尽量和 jQuery 保持一致,也支持链式语法。 2 goquery 提供的主要类型和方法 type Document struct {
*Selection
Url *url.URL
rootNode *html.Node // 文档的根节点
}
因为 Document 中内嵌了一个 Selection 类型,因此,Document 可以直接使用 Selection 类型的方法。 有五种方法获取一个 Document 实例,分别是从一个 URL 创建、从一个 *html.Node 创建、从一个 io.Reader 创建、从一个 *http.Response 创建和从一个已有的 Document Clone 一个。 2.2 Selection type Selection struct {
Nodes []*html.Node
document *Document
prevSel *Selection
}
一般地,得到了 Document 实例后,通过 Dcoument.Find 方法获取一个 Selection 实例,然后像 jQuery 一样使用链式语法和方法操作它。 Selection 类型提供的方法可以分为如下几大类(注意,3个点(…)表示有重载的方法): 1)类似函数的位置操作
2)扩大 Selection 集合(增加选择的节点)
3)过滤方法,减少节点集合
4)循环遍历选择的节点
5)修改文档
6)检测或获取节点属性值
7)查询或显示一个节点的身份
8)在文档树之间来回跳转(常用的查找节点方法)
2.3 Matcher 接口 type Matcher interface {
Match(*html.Node) bool
MatchAll(*html.Node) []*html.Node
Filter([]*html.Node) []*html.Node
}
3 实战演练 3.1 抓取 Go语言中文网 社区主题 — http://studygolang.com/topics 主要代码如下(为了节省篇幅,包导入等语句省略,完整代码,参见文章最后说明): func main() {
doc,err := goquery.NewDocument("http://studygolang.com/topics")
if err != nil {
log.Fatal(err)
}
//查找class=topics且其字节点下class=topic的节点
doc.Find(".topics .topic").Each(func(i int,contentSelection *goquery.Selection) {
//查找class=title且其字节点下节点为a的的节点
title := contentSelection.Find(".title a").Text()
log.Println("第",i+1,"个帖子的标题:",title)
})
}
编译、运行输出如下(你看到的内容和当时社区的主题列表一致): 2015/04/06 22:15:24 第 1 个帖子的标题: 问个加载包的问题 是不是很简单? 这里我们使用了 Each 这个方法。在 jQuery 中,each 迭代时,如果返回 false,可以终止迭代。比如,我们希望遇到标题中包含 cgo 的主题时,停止迭代,可以使用 EachWithBreak(之所以没有使用 Each,是因为迭代终止的功能是后来加入的,为了不改变 Each 的行为,保持兼容性,引入了该方法): doc.Find(".topics .topic").EachWithBreak(func(i int,contentSelection *goquery.Selection) bool {
title := contentSelection.Find(".title a").Text()
log.Println("第",title)
if strings.Contains(title,"cgo") {
return false
}
return true
})
从上面的输出可以看到,Each 遍历是按照页面节点的顺序的。如果我们希望反着处理,也就是先处理页面最底下的节点。查看文档,发现没有直接提供这样的方法。那么该怎么实现呢? topicsSelection := doc.Find(".topics .topic")
for i := topicsSelection.Length() - 1; i >= 0; i-- {
// 返回的是 *html.Node
topicNode := topicsSelection.Get(i)
title := goquery.NewDocumentFromNode(topicNode).Find(".title a").Text()
log.Println("第",title)
}
这里用到了 NewDocumentFromNode,把其中某一块 HTML 当做文档,对其进行操作。 输出如下: 2015/04/06 22:50:28 第 15 个帖子的标题: 如何使用cgo编译出来的文件 除了获取节点的文本内容,还可以获取节点的属性值、判断是否有某个 class 等,gopher 们可以自己试验。 顺便附上jquery的选择器的格式: (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |