加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

myfirstBI项目总结

发布时间:2020-12-14 03:52:54 所属栏目:大数据 来源:网络整理
导读:app 应用信息统计: ? saiku安装:http://www.voidcn.com/article/p-fefgrlfe-bdh.html workbench解压即用,http://www.voidcn.com/article/p-qeemkxny-bdh.html 流程: 1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。 2,用kettle清洗

app 应用信息统计:

?

saiku安装:http://www.voidcn.com/article/p-fefgrlfe-bdh.html

workbench解压即用,http://www.voidcn.com/article/p-qeemkxny-bdh.html

流程:

1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。

2,用kettle清洗设计,导入mysql

3,workbench连接好sql,设计XXX.xml的cube文件。

4,将cube文件通过saiku呈现。相关配置使用的细节,见上面的文件saiku安装。

?

worbench的纬度:从一个角度(另一个表的某个属性)看事实表中的数据统计信息(事实表ft要有对应的字段)。总结:维度表的column设置项与事实表中对应字段(设置在cube的foreign key)关联

?

一个纬度表,通过自身的某个键,和事实表的某个键关联。dimension的foreign key和level中column的设定。注意level中的显示列为空,则默认用上面的比较列,设置要显示的列内容,比如显示年份,用date_value进行比较,满足了,在显示同一行上的另一个列的内容。

?

saiku数据呈现:同一个dim下的level不能分开到row和column上,只能同时在一个上。

?

?

? dim上是的个数,行列都是dim,事实表中同时满足两个维度条件的元组个数。

??measure是统计量,用于统计一列上的个数。比如downloads。统计的是事实表上的一列的值。另一方向放维度就表示,按不同维度值分别进行统计。多个维度,则多个满足条件下的统计。

?? 注意,measure行列都可以放,想横着看,还是竖着看,就放到对应位置就行了。统计过程和统计结果不会发生改变(都是统计事实表中的一列)。measure和dim可以放到一起

???另外,在右边的尾部有加图功能,所以按日期看增长量。下图中就是有问题的,出现下降,说明数据有错误。

??

(再比如,统计每天的下载量,按取值区间统计,观察是否符合正态分布,如果大值处依旧很高,说明作弊的可能性很大)

?

?小测试,时间维度用维度表的dataval(维度表的column设置项),与事实表的date_value(cube的foreign key)关联,可以统计每天的信息。

?

?level的type选regular,其它类型time_XXX还在测试中?

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读