加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java网络爬虫

发布时间:2020-12-15 07:25:31 所属栏目:Java 来源:网络整理
导读:#环境准备 ##第三方工具包httpclient:抓取网页数据 *get请求 *带参数get请求 *post请求 *带参数post请求 *连接池 *请求参数:时间 #Jsoup *对页面进行解析 *字符串处理工具 *正则表达式 *环境搭建 *导入坐标jsoup,以及其他工具 *解析url *解析字符串 *解析

#环境准备

  ##第三方工具包httpclient:抓取网页数据  

    *get请求

    *带参数get请求

    *post请求

    *带参数post请求

    *连接池

    *请求参数:时间

#Jsoup

  *对页面进行解析

    *字符串处理工具

    *正则表达式

  *环境搭建

    *导入坐标jsoup,以及其他工具

  *解析url

  *解析字符串

  *解析文件

  *获取属性值

  *Selector选择器

#WebMagic

  *爬虫框架:基于jsoup和httpclient开发

  *核心容器spider:四大组件

    *下载

    *解析

    *去重

    *数据处理

  *数据流转对象:三大

    *Pages:核心

    *Request:url封装

    *ResultItems:Map

#爬虫的分类

  *全网

  *聚焦

  *增量:只查最新的

  *隐藏的网页

#EliasticSearch

  *使用WebMagic,爬虫网络,将数据存入mysql

  *用EliasticSearch将mysql数据建立索引库,Luece中文分词

  *将分析处理后的数据展示到前端

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读