加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

《数据仓库工具箱:维度建模的完全指南》笔记总结

发布时间:2020-12-14 03:52:46 所属栏目:大数据 来源:网络整理
导读:此篇是关于本书的读书笔记总结,因为在这方面的理解还是比较初级的状态,有误之处还望指教。 ? 个人认为这本书对于数据仓库的建模思路有一个很明确的描述:围绕事实表建立维度表。对数据仓库的建设有关键步骤上的指点: ? ? ?四步流程: ? ? ?1. 确定业务流

此篇是关于本书的读书笔记总结,因为在这方面的理解还是比较初级的状态,有误之处还望指教。

?

个人认为这本书对于数据仓库的建模思路有一个很明确的描述:围绕事实表建立维度表。对数据仓库的建设有关键步骤上的指点:

? ? ?四步流程:

? ? ?1. 确定业务流程

? ? ?2. 确定粒度

? ? ?3. 确定维度

? ? ?4. 确定事实表

另外一方面,由于这本书的出版时间大约在2005年前,因此对于Hadoop之类的分布式概念没有涉及,姑且可以认为是传统数据仓库建模的建模流程(这里的表述未必准确,因为本书主要是概念性的指导而非物理实现的说明,因此对于数据建模还是有很大的参考价值的)。而且不知道是不是翻译的差异,感觉行文比较啰嗦,经常看了半天也抓不住重点。

?

这里列举一些感触较深的概念:

1.??????因果维度:如果某个维度的变化会导致事实表变化,则称其为因果维度。事实上,每个维度(比如时间维度)的变化都会造成事实表(比如销售量)的变化,因果维度的特殊性在于这种变化是主动的,用来描述决策者行为对事实表的变化,而时间等维度更多的是自然性的变化。

因果维度的对立面是偶然维度,这个概念我也没有足够了解,可能指的是相关而非因果的信息。

促销维度是一种典型的因果维度,其中包括降价,活动等等,见第二章

2.??????总线结构:这是对于公司不同部分在数据仓库建设方面的关联方法,增量的构建数据仓库。既然不同业务部门都要建立数据仓库,作者提出按业务而不是按部门建立数据仓库,因此总线流水式符合业务的运行流程,可以更好的与业务结合,毕竟数据仓库的目标是服务业务的

3.??????值链:描述机构主体活动的自然逻辑流程。主要目标是将业务中先分解为几个部分,不同部分可能分别由操作型源系统构成。

操作型源系统即OLTP,和数据仓库的区别是normalized. 我个人认为normalized和denormalized问题如同CPU密集和IO密集型应用一样,是数据仓库和数据库最最根本的分别。(雪花型和星型反映的也是数据仓库的规范化程序,即应用中的半规范化概念)。

4.??????半加性事实:在某些维度下可加,在另外一些维度下不可加的事实。比如银行存款,在日期维度上,一周后的存款不等于每天结算时的存款总额,而在银行网点维度上,一个城市的总存款等于各个分行的存款总额。

5.??????混合事实表:某些应用中,事实表的事实可能存在内在关联,那么是把它们分裂作为不同的事实表,还是混合作为一个整体的事实表需要考量。

6.??????渐变维度:在业务发生调整时基本保持不变的维度,与之相对应的是快变维度,比如某个维度表的属性经常性的发生取值变化。

7.??????一致性维度:避免不同业务部门对于维度定义的不统一,这也是数据仓库团队的主要工作之一,避免同一个概念的不同表述。

8.??????三种基本的事实表:

? ? ?(1)事务:记录基本的事务活动

? ? ?(2)周期性快照 : 规律性的时间插入

? ? ?(3)累计快照:存在重新存取

9. ?维度支架:一种雪花状模型使用的条件,其特点是最外延的维度表很多属性,它又作为关键字给内延维度表查询使用,合并在一起由于粒度差距较大而会引起极大的冗余

10. 属性变化策略

? ? ?(1) 改变属性值:对于非关键字,可以直接做替换,问题在于无法记录旧的取值

? ? ?(2) 添加维度行:如果某个维度的属性发生变化,那么不是直接替换原来值,而是生成新值

? ? ?(3) 添加维度列:比如现部门,前部门。增加一个新的维度列把维度与之间信息相关联

?

另外有一本书<<点击流数据仓库>>,作者也是Kimball的拥护者,也存在时间较早的遗憾,虽然谈了很多具体实现,但和现在的应用环境有较大的区别。网上有很多不错的建模文章(比如宽表建模,Hive)但还是很希望能有一些接地气的DW/BI设计书籍可以系统阅读,如果有可以推荐给我非常欢迎。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读