加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

对“伪大数据说不”系列(一)盖茨基金:成也数据,败也数据

发布时间:2020-12-14 02:46:17 所属栏目:大数据 来源:网络整理
导读:【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】 热门新书 《 对 “ 伪 大数据” 说 不:走出大数据分析与解 读 的 误 区》 节选 比尔·盖茨是美国企业成功故事的典型

【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】



热门新书大数据”不:走出大数据分析与解区》节选

比尔·盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子,大学中途退学,创办自己的软件公司。而且他们公司开发的软件,最终用在了世界90% 的电脑上,比尔也因此赚到了数十亿美元的财富。后来,他退出江湖,将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔&梅琳达·盖茨基金会”。而且我们很高兴地看到该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防,在美国进行中学改革,以及对艾滋病的研究。盖茨基金会因依靠数据来做出明智的决定,从而赢得了良好的声誉。


但这并不意味着他们不会犯错。盖茨在千禧年开始之际,大力支持小型学校运动,他在全美范围内选出了一些学校,并往这些学校投入了上亿美元。证据A 是当时的一项统计发现:在全美表现最好的学校中,小型学校所占的比例不均衡。例如,在宾夕法尼亚州,按照五年级的阅读成绩评出的前50 所学校中,12% 是小型学校。要是学生的成绩跟学校的规模无关,那么规模大的学校在这50 所名校中所占的比例应该是小型学校的四倍。因此,学校规模被认为是影响教学质量的重要因素——每个年级最多不能超过100 名学生。而盖茨基金会设计的一套改造方案,就是将大型学校拆分成更小、更高效的小型学校。


举例来说,2003 年新学年伊始,在华盛顿的芒特莱克泰勒斯高中读书的1800 名学生发现,自己的学校被分成了五所小型学校,学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过,校址没有改变,还是在以前的大楼里。盖茨基金会教育处执行主任汤姆·范德· 阿尔克解释说:“大多数穷人家的孩子,不得不进规模大的学校念书,在那里没人认识他们,他们被甩进了一条难以出头的死路……小型学校只不过营造了一个(比大型学校)更好的成长环境。在那里,比较容易形成积极的氛围,产生较高的期望值,也更容易优化课程设置,改进教学质量。”


十年以后,盖茨基金会却发生了彻底的转变,它不再将学校的规模视为解决学生成绩问题的唯一方法,而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究,结果发现,重组后的学校平均成绩没有变得更好,相反,在某些个例中变得更差了。


统计学家霍华德· 魏讷(Howard Wainer)在美国教育考试服务中心度过了最好的职业生涯。魏讷曾抱怨道:“这数百万美元的错误,本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中,魏讷指出,虽然小型学校在前50 所学校中占了12% 的份额,但同时要看到,在后50 所学校中,有18% 是小型学校。简单来说,小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据,分析师们都会得出完全相反的结论。在对飞机晚点的研究中,我们见过类似的情况。问题的关键不在于多少数据被分析,而是被如何分析。


盖茨基金会的故事证明了另外一点:数据分析是一件棘手的事,无论是权威专家还是经验丰富的行家,都不能担保不出错。不管一个人的脑袋瓜多么灵光,总会有一定的犯错范围。这是因为,没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了,登在这本期刊上的文章难道会有错?!”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代,只有傻瓜才会采取这种态度。你听说过很多研究,试图在某种疾病与某种基因之间建立联系,比如,帕金森症和高血压。可是,你知道吗?经过同行评审、并得到同行认可的遗传学关联性研究成果,只有30% 能被后续的研究证实,其余的都是假阳性结果(false-positive result)。那些声称是原创性的研究成果,还没来得及出版勘误表,就已经被推翻了。不过,话又说回来,我还是希望专家能发表一些质量稍高的分析报告。

大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种普遍的误解,以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击流吧,网络营销人员借助点击追踪网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告,然后下了订单,这不就足以证明网络营销成功了吗?还需要什么更有力的证据吗?现实情况远非如此简单明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们抨击苹果的广告,觉得很过瘾,于是,我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时,不但会漏掉促使我行动的真实原因,而且会犯假阳性错误,将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松平常。

大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。要知道,即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用,事情会变得更糟糕;不过,即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中,消费者得有一副火眼金睛才行啊!

大数据是真实的,而其影响更是广泛的。至少,我们每个人都是数据分析的消费者。因此,我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。

数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西:一个是数字直觉,其他两样分别是技术能力跟商业思维。有些人可能在编程方面无人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,但是却没有任何数字直觉。数字直觉是第三维度。

我写作这本书的目的是引你上路。本书的每一章都是由近期读到的一则新闻触发灵感而写成的。在这些新闻故事中,有人提出了一些观点,并且援引数据来证明自己的观点。我通过提一些尖锐的问题,检查一致性,数理论证,有时候,也会通过获取并分析相关数据,来展示我是如何验证这些观点的。比如,我会质疑高朋网的商业模型有意义吗?一种检测肥胖的新方法能解决我们最大的健康危机吗?克莱蒙德麦肯那学院在学院排名游戏中小规模作弊了吗?政府公布的通胀跟失业数据值得信任吗?我们如何评价梦幻体育联盟的表现?当商家通过追踪我们的活动来实现个性化营销时,我们会从中受益吗?

即使是专家有时候也会掉进数据的陷阱中。如果我在这本书里面也犯了此类的错误,那么责任完全在我。要是我没有把观点讲得足够清楚,那就意味着这些数据的分析方法不止一种。我鼓励你们形成自己的观点。只有通过这样的练习实践,才能培养出你自己的数字直觉。

欢迎来到大数据时代,不过,要处处留神才是!

畅销书《数据治世界》作者、

美国纽约大学统计威教授、

超高人气的博客“垃圾表”博主启思最新力作;

培养敏的“数字直”,学会大数据”不!

大数据”不:走出大数据分析与解区》

我们生活在大数据的时代,在本书中,统计学专家冯启思将告诉你在什么时候可以接受大数据“专家”的结论,什么时候要对这些统计数字提出质疑。他深入人们日常生活和工作中广泛关注的话题,如学校排名、健康指数、就业统计、团购网站等,通过对这些数据的分析与解读来告诉人们什么才是正确的答案,如何才能培养出数字直觉。作者还在书中告诫人们在当今这个信息超载的时代,媒体充斥着各种不良信息,千万不要轻易地信以为真,要学会对“伪大数据”说不!

转载请注明以下内容,谢谢~

文章出处:数盟社区

原文链接:对“伪大数据说不”系列(一)盖茨基金:成也数据,败也数据

—————————————————

数盟网站:www.dataunion.org

数盟微博:@数盟社区

数盟微信:DataScientistUnion

数盟【大数据群】272089418

数盟【数据可视化群】 179287077

数盟【数据分析群】 110875722

—————————————————

点击阅读原文,更多精彩技术、资讯内容~

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读