加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Groovy中的Crawler(JSoup VS Crawler4j)

发布时间:2020-12-14 16:31:20 所属栏目:大数据 来源:网络整理
导读:我希望在Groovy中开发一个Web爬虫(使用Grails框架和MongoDB数据库),它能够抓取网站,创建站点URL列表及其资源类型,内容,响应时间和涉及的重定向数量. 我正在讨论JSoup vs Crawler4j.我已经阅读了他们基本上做了什么,但我无法理解两者之间的区别.任何人都可以
我希望在Groovy中开发一个Web爬虫(使用Grails框架和MongoDB数据库),它能够抓取网站,创建站点URL列表及其资源类型,内容,响应时间和涉及的重定向数量.

我正在讨论JSoup vs Crawler4j.我已经阅读了他们基本上做了什么,但我无法理解两者之间的区别.任何人都可以建议哪个更适合上述功能?或者比较两者完全不正确?

谢谢.

解决方法

Crawler4J是一个爬虫,Jsoup是一个解析器.实际上你可以/应该使用两者.
Crawler4J是一个简单的多线程接口,用于获取所需网站的所有网址和所有页面(内容).之后你可以使用Jsoup来解析数据,使用惊人的(jquery-like)css选择器并实际上用它做一些事情.当然,您必须考虑动态(生成javascript)内容.如果你也想要那些内容,那么你必须使用其他包含javascript引擎(无头浏览器解析器)的东西,如 htmlunit或 webdriver(selenium),它将在解析内容之前执行javascript.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读