java网络爬虫

发布时间：2020-12-15 07:25:31 所属栏目：Java 来源：网络整理

导读：#环境准备 ##第三方工具包httpclient：抓取网页数据 *get请求 *带参数get请求 *post请求 *带参数post请求 *连接池 *请求参数：时间 #Jsoup *对页面进行解析 *字符串处理工具 *正则表达式 *环境搭建 *导入坐标jsoup，以及其他工具 *解析url *解析字符串 *解析

#环境准备

　　##第三方工具包httpclient：抓取网页数据　　

　　　　*get请求

　　　　*带参数get请求

　　　　*post请求

　　　　*带参数post请求

　　　　*连接池

　　　　*请求参数：时间

#Jsoup

　　*对页面进行解析

　　　　*字符串处理工具

　　　　*正则表达式

　　*环境搭建

　　　　*导入坐标jsoup，以及其他工具

　　*解析url

　　*解析字符串

　　*解析文件

　　*获取属性值

　　*Selector选择器

#WebMagic

　　*爬虫框架：基于jsoup和httpclient开发

　　*核心容器spider：四大组件

　　　　*下载

　　　　*解析

　　　　*去重

　　　　*数据处理

　　*数据流转对象：三大

　　　　*Pages：核心

　　　　*Request：url封装

　　　　*ResultItems：Map

#爬虫的分类

　　*全网

　　*聚焦

　　*增量：只查最新的

　　*隐藏的网页

#EliasticSearch

　　*使用WebMagic，爬虫网络，将数据存入mysql

　　*用EliasticSearch将mysql数据建立索引库，Luece中文分词

　　*将分析处理后的数据展示到前端

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!