加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据处理工具理解与看法。[行业态势]

发布时间:2020-12-14 03:37:11 所属栏目:大数据 来源:网络整理
导读:O'Reilly杂志刚刚发布了2013年度大数据技术领域的薪资调查报告。这个报告是包含有关数据技术领域相关职位等有趣信息的宝库。 我在报告中发现的最有含金量的信息是一个有关被大多数数据技术大牛们常用到的数据工具的详细数据图。 这张图证实了我对数据技术工

O'Reilly杂志刚刚发布了2013年度大数据技术领域的薪资调查报告。这个报告是包含有关数据技术领域相关职位等有趣信息的宝库。

我在报告中发现的最有含金量的信息是一个有关被大多数数据技术大牛们常用到的数据工具的详细数据图。


这张图证实了我对数据技术工具一直以来的直觉:

1,SQL是数据技术的鼻祖,而且确确实实它的应用程度是Hadoop的两倍。
2,Excel和R是专用做数据分析的工具,且两者都用途广泛(包括数据分析和数据可视化),因此这两个工具比其他单一用途的工具用途更广泛就不足为奇了。
3,这些工具在脚本语言方面的应用就更为广泛了,其中Python,R,Javascript和Ruby都是数据技术应用的粘合剂。尤其是Python,在这方面的应用尤为明显。

最让我感到吃惊的是这张图中显示的:SAS/SPSS相对应用程度并不太高。我猜这个结果之所以让人觉得有些夸张,有可能是因为报告调查人口的属性:仅仅局限于参加Strata会议(O'Reilly杂志的数据科学和大数据领域会议)的人群。但是老牌软件和开源软件R之间相差四倍的应用比例,切切实实地让我看到越来越多的开源工具应用,以及这种趋势越来越明显的情况。

另一个有趣的现象是:不同工具对于数据技术大牛们的应用图谱。


用极客的话来说,这是一幅描述工具之间承前启后相互关系的示意图。从图中可以看到,蓝色部分是传统的I/T类工具,橙色部分是新的Hadoop工具类。数据可视化或许可以用来描述红色部分的工具应用,虽然我们知道Weka的应用层面并不局限于数据可视化。

由此我们可以看到,确实是有一幅数据技术领域相关工具的地图的。假如传统的I/T老牌工具是北美洲,Hadoop新兴数据技术是南美洲,那么Tableau就是巴拿马运河,是联接两个大陆的要道。另外,这幅图让大家清楚地看到SQL应用如此广泛的原因所在了吧:就像星巴克一样,在每一块大陆中都有至少一个类似SQL的工具(Hive,MySQL,SQL,SQL Server),当然很快会有更多类SQL的工具出现。

再看看这幅图,我们发现有三个重要的信息:
1,数据工具的应用五花八门,不拘泥于一个或几个应用。因此所谓创新不一定一定要在财富杂志500强的企业,当然也不一定必须发生在硅谷的菁英当中。数据技术可能出现在任何一个环境当中,优秀的技术人员可以在任何一个地方工作。

2,理论上,任何一家公司都可以做到或者可以用不多的资金得到数据技术的相关工具。假如你下载一个R Studio,再装一个SQL数据库,那么你就能像技术大牛一样开始工作了。

3,Storm,Spark还有其他的一些工具仍然是这个领域当中的佼佼者,但到目前为止,我们说到的数据技术还并不是指实时的数据分析。所以让我们翘首以待2014年的调查报告结果吧。

谢谢O'Reilly杂志,谢谢你给数据技术和技术人员带来的这些颇有洞察力的信息,谢谢!

译者:霞飞原文作者:Tim Harford

来源:译言网

若想了解更多数据分析方面知识,请回复“数据分析”,“数据挖掘”等。

回复“走你”有惊喜!

你若觉得文章,可以通过微信右上角“...”分享到朋友圈与朋友们!

数据分析 微信,数据分析人自己的微信!

微信号:ecshujufenxi

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读