知识篇:新一代的数据处理平台Hadoop简介
在云计算和大数据大行其道的今天,Hadoop及其相关技术起到了非常重要的作用,是这个时代不容忽视的一个技术平台。事实上,由于其开源、低成本和和前所未有的扩展性,Hadoop正成为新一代的数据处理平台。
Hadoop是基于Java语言构建的一套分布式数据处理框架,从其历史发展角度我们就可以看出,Hadoop一诞生,就具备高贵的血统,发展顺风顺水: 2004年,Google发表论文,向全世界介绍了MapReduce 2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作的MapReduce应用 2005年中,所有主要的Nutch算法被移植到MapReduce和NDFS(NutchDistributedFileSystem)环境来运行 2006年2月,ApacheHadoop项目正式启动以支持MapReduce和HDFS的独立发展 2007年,百度开始使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理 2008年,淘宝开始投入研究基于Hadoop的系统–云梯,并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB,包含了1100台机器,每天处理约18000道作业,扫描500TB数据 2008年1月,Hadoop成为Apache顶级项目 2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo的一个Hadoop集群用209秒完成1TB数据的排序,比上一年的纪录保持者保持的297秒快了将近90秒 …… 很多人开始接触Hadoop时,都以为这是一个项目,其实Hadoop除了核心的MapReduce和HDFS之外,还包含了众多的子项目,换句话说,Hadoop已经形成了一个丰富的技术生态圈: 随着互联网的飞速发展,大量数据的存储和分析遇到瓶颈,磁盘容量的增长远远大于磁盘读取速度,1TB的磁盘,数据传输速度100MB/s,读一遍2.5H,写数据就别提了,心拔凉拔凉的(当然SSD在生产环境的实际应用,大大缓解了这一窘境)。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |