加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

决定BI成效的关键——数据质量

发布时间:2020-12-14 04:10:56 所属栏目:大数据 来源:网络整理
导读:?商业智能的主要承诺是可以为决策者制定精明的抉择提供必要的信息。此声明中不言而喻的假设是:这些信息来源中的数据是正确的。不幸的是,情况往往是,这个假设被理解为没被强调的需求。因此,至关重要的是,BI项目团队要用对系统的运行时间,系统响应时间或
?商业智能的主要承诺是可以为决策者制定精明的抉择提供必要的信息。此声明中不言而喻的假设是:这些信息来源中的数据是正确的。不幸的是,情况往往是,这个假设被理解为没被强调的需求。因此,至关重要的是,BI项目团队要用对系统的运行时间,系统响应时间或网络性能这些需求一致的严格要求和动力来强调数据质量。数据质量必须结合到BI系 统的核心。
虽然 BI系统只能提供像决策者对数据拥有的信心一样的效果,但是对组织的整个信息基础架构来说,数据的质量问题远远超出前端报告工具或后端数据仓库的问题。具有讽刺意味的是,由于BI系统把数据质量问题带到了明处,所以它经常因为数据质量差而被指责。在数据仓库之前,数据经常在事务级别或者在分离的信息孤岛上被看见,这些错误是隐藏的,因此,缺少一个大的视图。换句话说,因为数据是离散的,数据与数据联系的错误无法被看到。在BI系统中 的数据聚合放大了与提供该组织的整个森林视图数据的问题。BI项目经理应该看到这不是问题,而是以此为契机,通过改善所有信息系统的数据质量来获得更大的BI系统的 回报。
许多研究已经完成并已发表很多关于数据质量对财务的影响的文章。我们不会纠缠这些问题。为了讨论方便起见,让我们同意对于差的数据质量会有花费,而对于好的质量会有收益。让我们也同意,这些花费和收益提供足够的投资回报作为数据质量所作的努力的奖金。这里的问题是BI项目经理如何能够把数据质量集成到项目中,不仅有助于确保数据仓库的全面成功,而且提高了整个组织的信息的质量。
由于认识到这个机会可 以增加价值,BI项目团队在计划阶段必须在他们的质量管理计划中要强调数据质量。虽然传统上,质量管理计划会强调项目可交付物的质量,但是数据质量计划本身也应该被认为是BI项目的可交付物。这个计划首先被项目团队所使用,建立需要的组织结构和流程。然后它被作为部分正式上线的转变交付去支持组织。这个反过来成为组织的数据治理系统的基础。
数据质量管理计划从需 求开始。一切都是从需求开始。至少,数据质量需求定义要包括以下:
1. ?完整性。丢失数据和错误的数据一样有问题,特别是如果用户群体认为在数据仓库中的数据是完整的。用户群体必须定义出什么样的数据是他们需要的,我们也应该牢记,BI项目团队不是万能的。在项目的第一阶段就去整合所有的资源系统是不实际的,在这种情况下,用户群体与IT合作优先考虑哪些数据源在那些阶段提供。这个不仅保证了以正确的次序满足用户的需求,而且还可以帮助制定在项目的第一阶段中并不包括所有的数据源的客户期望。
除了强调包括哪些源系统,用户群体也定义了包括哪些数据元素。客户的账户缺失社会保障号码是可以接受的么?传真号码呢?这要由用户来告诉我们他们需要什么。
2. 准确性。用户和IT为数据干净合作。当客户的社会保障号码是不正确时,是否是很重大的问题?那不正确的生日呢?如果多个系统都不一致,那在这些系统中,哪些是可以信赖的?而且,需要什么级别的数据准确性?当然,我们都忍不住要说,我们希望数据是100%准确的,但是企业一定要注意这需要有花费来保证正确性。在某些情况下,更大的数据准确性的增量效益可能不能补偿增加的费用。如果准确性从90%到92%会使费用翻倍,企业可能决定这个不值得去投资。市场可以使用这数据,在并不值得投资的额外两点的地方,来驱动一个直邮活动。其他的人可以使用数据来驱动安全,在安全中最细小的缺口可能意味着数百万美元的损失或者更糟糕的,丢失生命。无论在哪一种情况下,额外的开销都是值得的。再一次的,用户群体提供的这一信息。
3. 一致性。这里我们不是指的数据本身的一致性,而是元数据。这是各种数据元素和围绕数据的规则的定义。客户是什么?有人会认为这个问题很好回答,但是在很多的组织中,不同的部门有不同的,通常是相冲突的回答。账户一览表是许多组织纠结的地方。甚至当有一个对结构和价值一致的意见时,对于如何使用它也会有冲突。IT与用户一起工作来创建一个数据词汇表,它可以很好的定义数据元素,建立商业规则为了提供跨越组织上的一致的用法。数据词汇表不仅定义了BI系统的元数据,而且它还记录了数据如何被创建和被企业所使用,企业的规则。
4. 频 率。数据多久需要刷新一次,在什么时间?通常的,每夜的数据仓库的刷新是足够的。在月底结束,会计可能需要按小时更新数据仓库,或者甚至实时更新。同样,用户群体提供了这种信息。
在列出的需求中我们可 以看出,BI项目团 队需要和用户群体紧密合作一起工作。一个数据仓库,尽管不是静态的。事实上,BI系统的成功因素之一就是系统会变化;他会随着企业一起成长和进化。因此,BI项目团队和用户群体之间的合作的生存周期超出了项目本身。鉴于这一角度来看,数据管理计划必须确定要保持这种关系的组织结构。
?
在这个组织结构中,关键的人会用必要的权力去建立正确的数据质量策略和流程来负责数据质量。在每个组织中,需要有一个数据治理委员会用来对数据质量负责。委员会中的参与者数量会随着组织的大小而变化,但是最少也要有以下人员组成:
?
1.?执行发起人。执行发起人是C级别的行政人员,用来驱动公司对数据治理倡议的承诺。就像我们在数据仓库项目中看到的,为了使跨业务线的系统成功,在组织机构的低级别,执行发起的关系需要建立起来用来创建足够的承诺。最好,这发起关系应该来自IT外部。
2. 数据质量经理。数据质量经理的角色是协调数据治理委员会的活动和保证委员会交付物的质量。过去有些人把这个角色指向为是程序或项目经理。但是都不对;一个项目是一个暂时性的行为用来得到一个独一无二结果,同时,一个程序是由许多项目组成的。数据质量经理是在数据仓库开发过程中建立和促使过去的项目完成。这不是暂时的。
3.?主题管理员。主题管理员是在数据治理委员会上的用户群体的代表。这个人理解业务怎么使用这些数据,而且他负责去定义之前描述过的数据质量需求。他会和数据管理员密切合作一起工作。
4. ?数据管理员。数据管理员是与主题管理员一起工作的IT人员。数据管理员把主题管理员定义的需求翻译成开发团队用来创建系统的技术规范。
每一个角色都会全职或兼职来执行,这取决于每一个组织的需要。管理员的数量是随着组织变化的。而且,主题管理员和数据管理员的关系也可能是多对一或一对多的,这取决于不同的场合需要。
我们创建了一个简单的 矩阵来决定谁会加入到这个治理委员会。沿着一个轴,我们列出了每一个主题区域或数据仓库中的维度。我们可能列出,例如:售货企业,客户或产品。沿着另一维,我们通过区域列出相关的功能。在这里,我们希望能够看到整个如销售,各种销售活动或在相关功能中的供应链。在每一行和列的相交处,我们识别出那个功能是否创建,读取,更新,或删除那个维度。对于每一个与特定维度交互的功能区域,选出一个主题管理员用来代表数据治理委员会。注意,主题管理员可以分布在多个维度上或者多个功能区域。所以,一个主题管理员可以代表所有的金融,同时代表销售。相似的,一个单独的主题管理员可以负责跨越包括金融和销售的客户数据,另外的一个管理员负责产品。
数据治理委员有战术和战略上的责任。战术上,他们负责监控数据质量,解决提出的问题。问题被扩大根据扩大的策略,这个策略的制定是这个委员会的职责之一。战略上,数据治理委员会负责提出那些为日益改善在整个组织系统中的整体数据质量的必要流程和策略。这些策略包括的主题,例如:
?
·????????在数据仓库中,新的数据源什么时候被加进或被删除掉
·????????数据元素的商业规则
·????????由什么来决定一个报告何时不再需要
·????????一个新的数据源如何集成到环境中
·????????哪一个数据元素接收到什么级别的安全
?
除了制定策略,数据治 理委员会建立必要的程序来强制使用这些策略。这些策略将包括:
·????????数据词汇表维护
·????????合并第三方数据
·????????集成新数据源
·????????数据访问
·????????数据内容复查
?
我们开篇首先指出,BI系统只能提供像决策者对数据拥有的信心一样的效果。这个数据治理方法的主要方面是把用户群体包含进处理过程中。一个通用的解决任何管理问题的方法是授权给那些受问题影响的人,让他们去帮助解决它;毕竟,他们通常是最熟悉相关情况的。通过建立数据治理程序,建立用户和IT之间的合作,我们向用户提供对数据质量问题的更深入了解,同时还提供部分决议的所有权。用户对于数据质量问题的了解将增加用户对商业智能系统的信心,最终提高了BI系统的 成功。
William Giovinazze 是PMP认证的商业智能项目经理,有超过15年开发BI系统的 经验。
?
本文摘自 [information-management]
译者介绍:
贾冉,毕业于清华大学,拥有软件工程硕士学位,现从事软件研发管理工作,
曾在 IBM,BEA 等大型外企工作,熟悉 JAVA、 J2EE 、搜索引擎,数据仓库等技术。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读