java网络爬虫
#环境准备 ##第三方工具包httpclient:抓取网页数据 *get请求 *带参数get请求 *post请求 *带参数post请求 *连接池 *请求参数:时间 #Jsoup *对页面进行解析 *字符串处理工具 *正则表达式 *环境搭建 *导入坐标jsoup,以及其他工具 *解析url *解析字符串 *解析文件 *获取属性值 *Selector选择器 #WebMagic *爬虫框架:基于jsoup和httpclient开发 *核心容器spider:四大组件 *下载 *解析 *去重 *数据处理 *数据流转对象:三大 *Pages:核心 *Request:url封装 *ResultItems:Map #爬虫的分类 *全网 *聚焦 *增量:只查最新的 *隐藏的网页 #EliasticSearch *使用WebMagic,爬虫网络,将数据存入mysql *用EliasticSearch将mysql数据建立索引库,Luece中文分词 *将分析处理后的数据展示到前端 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |