关于数据仓库 — 总体工具介绍
?原创于2007年01月29日,2009年10月15日迁移至此。
数据仓库项目是以关系数据库为依托,以数据仓库理论为指导、以 OLAP为多层次多视角分析,以 ETL工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。最终目标是为了达到整合企业信息信息,把数据转换成信息、知识,提供决策支持。
数据仓库不是一门纯粹的技术,如果从 Oracle、 SQLServer等专业数据库的角度去学习,就有失偏颇了。数据仓库应该是一种体系结构,它的核心是在于对于数据的整合,通过抽丝剥茧把企业原始数据进行集成、归类、分析,从而提供了企业决策分析需要的 KPI。 数据库和数据仓库从物理设计角度应该是一致的,都是基于传统的关系数据库理论,而且这两者有融合的趋势。 SQLServer,Sybase,DB2,Oracle都是传统的关系数据库,同时只要经过认真的数据模型设计或者参数设置也可以变成很好的数据仓库实体;与此同时数据仓库也在基于自身的特点不断地进行发展演变,例如 SybaseIQ、 Terradata就是完全的数据仓库,用它来设计 OLTP系统显然是存在各种问题的。 OLAP也逐渐被融合到数据库和数据仓库产品中来,例如微软的 Analysis Service 和 DB2的 OLAP Server,通过自身提供的专用接口可以加快多维数据的转换处理。当然象 Essbase这样纯粹的 OLAP也是非常优秀的产品,实际上 80%以上的大型 OLAP都是采用 Essbase的。 说到 ETL,一般市场上最重要最全面的还是 Informatica,但是关系数据库厂商通过自身的吸取和发展得以改进后,仍旧在不断蚕食这一市场,最常见的是与 SQLServer搭配的 SSIS和 Oracle的 OWB。 报表工具呢,还是原来的几个专业工具厂商, Hyperion, BO, Congos, Brio,当然价格也不菲,如果想用便宜的还是请选用微软的 ReportService吧。 ?
? |