研究生:数据分析/挖掘工作的疑惑?
? 下载数据分析更多资料 点击此处本人在读硕士一名,研二,理工科,所作工作于这两方面无关。但是,最近对这个方向特别感兴趣,真的很想从事这方面的工作。目前,正在自学中,以及找相关实习。但是,我看了一些东西之后,有些不解。问题如下: 1 数据挖掘与数据分析在实际工作中真的有很大不同甚至是区别吗?我知道一些定义,比如数据分析偏重于统计,而数据挖掘的工作是分类,聚类,是信息的提炼,但是实际工作中是不是往往两方面都在做?分不清,分不开。 2 有些单位(互联网、软件)找数据方面的人会要求编程比如python,r,hadoop等。有些则似乎要求的是应用,比如spss,sas,modeler(过去叫clementine)等。是不是编程的那部分人使网站能动态的响应,而应用的那部分人的工作是通过了解分析改善运营跟业务状况?是不是有些公司把这部分人叫做需求分析师,业务分析师等? 3 针对与2所提问及的搞应用的人,现在的公司真的有对他们的分析结构给予足够重视吗?这部分人一般在什么部门?岗位多吗? 4 对于整个数据分析/挖掘,你们觉得是一次概念炒作,又或是我们遇到了大数据/云时代,所以有比很大的应用前景? 本人供职于一家大型国企,正好工作内容也是整天跟数据打交道,以下回答只针对本人所从事工作中遇到的情况做分析,未必有很大通用性。
第一个问题其实不重要,因为用人单位往往分不清这两个词的区别,会把数据分析职位写成数据挖掘,反之亦然。如果非要解释,数据分析师一般指上个世纪的BI(商业智能)的工作,使用统计工具(一般是用软件,而不是编程的方式),和Excel对小数据或者采样数据(结构化的数据)进行数值上的分析,提供报表,帮助公司进行产品推广或者重大决策等等。而数据挖掘是指在大数据背景下,使用编程的方式结合分布式计算框架,对全量的数据(非结构化的数据)进行知识抽取。简单的如兴趣划分,通过已知的部分人口信息预测全量数据中确实的人口统计信息,人群中影响力中心的挖掘。常用的工具是回归模型做预测,聚类/分类算法做人群的划分,分词/LDA算法对文本进行主题的划分,反作弊/反垃圾用到的模式识别等都属于数据挖掘的范畴(可以简化成2个,预测,分类)。 第二个问题,我对第一个问题的回答第一句话就说明了这个问题——公司往往不知道什么叫数据挖掘,什么叫数据分析。有来我们公司面试的人说有Hadoop的经验,我就问了一下:“您之前的公司每天有多少数据需要处理?”,对方答道:“10个G”。我差点没把心声说出来“你TMD在耍我么!!!”。总之各种公司管什么不相干的职位的叫法都千奇百怪,不用纠结名字。
分析结果公司是否给予足够重视,这个问题还是太大,因而很难回答。我来解构一下:谁代表公司?业务方吗?业务方的什么级别的人呢?进而,假设你的分析结果是给业务部门的总经理做汇报,那么你的分析结论真的对总经理的工作有助益吗?如果回答为是,我想总经理会重视的。而如果你的分析结果没到总经理关注的层面,一来你可能没有机会把结论晒给总经理,二来即使晒了,总经理也不会buying,你是否会得出结论这家公司不重视你的分析?
99%的公司自己在炒作,也觉得别人也是在炒作,1%的认真在做的公司在闷声发大财。 我按照Q&A的方式,逐一尽力回答你的问题。但其实从你的发问中,我能感觉出,你所谓的兴趣其实是相当模糊的。你原话是“对这个方向特别感兴趣”,那我说我对心理学这个方向特别感兴趣,你嚼着我到底是对啥感兴趣呢?随便买本心理咨询师的书来,翻翻目录,就知道这个名词下面细分的结构,进而进行的深入和展开,都有很大的差异。你看了书,也充满疑惑,然后你还有兴趣吗?到底对什么有兴趣?我建议你认真地考虑下这个问题。 举个简单的例子: 有一些人总是不及时向电信运营商缴费,如何发现它们? 数据分析:通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析,发现很多人都习惯在收到欠费通知以后再缴费。结论就是提前发放短信提醒。 数据 (Data) 是 DIKW Pyramid (Data,Information,Knowledge,Wisdom) 中最低级的材料。而数据工程是一整套对数据进行采集, 处理, 提取价值(变为 I 或 K)的过程。首先介绍一下相关的几种角色: Data Engineer Data Scientist Data Analyst。 这三个角色任务重叠性高, 要求合作密切, 但各负责的领域稍有不同。大部分公司里的这些角色都会根据每个人本身的技能长短而身兼数职, 所以有时候比较难以区分。
分析与挖掘是相辅相成的,比如你要做男女购买的分析,可是你的网站不记录购买商品会员的性别,那咋办?你通过数据挖掘的方法,给所有用户打了性别的标签,之后,你就可以做数据分析了~
大数据,我个人感觉是炒作,现在大部分企业还停留在看报表阶段,数据驱动的时代还没到来,毕竟数据驱动的话,那得要求数据质量相当高才行。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |