加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

互联网数据ETL-实用攻略

发布时间:2020-12-17 00:37:07 所属栏目:安全 来源:网络整理
导读:提取 1.数据获取方式:post和get 2.登陆,获取访问权限 3.解析get方式的链接地址的内容,从网页中找到链接地址参数,并确定参数的定义域和含义功能 4.获取网页数据,简单处理 5.根据所要捕获内容进行方法选取:正则表达式截取指定格式部分;变量解析; 6.存

提取

1.数据获取方式:post和get

2.登陆,获取访问权限

3.解析get方式的链接地址的内容,从网页中找到链接地址参数,并确定参数的定义域和含义功能

4.获取网页数据,简单处理

5.根据所要捕获内容进行方法选取:正则表达式截取指定格式部分;变量解析;

6.存储捕获数据,按照设计好的数据结构存储到缓存数据库或文件中。


转换

1.格式标准化,比如时间,姓名,年龄,邮箱,图文等有固定格式的,把初始的一般格式转化为指定格式

2.去除异常数据,不能转化为指定格式的数据,可以尝试修复,不符合概率或者异常的数据给以剔除

3.按查询条件,转换数据,比如常规查询带顺序,则按顺序存储(非关系数据库)


加载

1.加载数据,为了便于加载到其他平台予以调用,网页加载可以输出js文件,程序加载可以存储到关系型数据库,如mysql,sqlserver等。

2.发布数据webservice,返回指定格式的字符集。


数据挖掘

1.事务决策 根据业务的需求,从数据中获取决策依据

判断数据与业务的关系,更加需要设计好算法,分析处理得到结果,并验证其与业务的相关性

2.在线联机分析

联合其他平台的即时数据,或历史数据,进行联机处理。具有较好的触发算法处理才行。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读