加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据了解

发布时间:2020-12-14 04:51:43 所属栏目:大数据 来源:网络整理
导读:Hadoop Hadoop:Apache基金会所开发的 分布式系统基础架构。 Hadoop的框架最核心的设计就是: HDFS(分布式文件系统)和MapReduce 。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.

Hadoop

Hadoop:Apache基金会所开发的分布式系统基础架构。

Hadoop的框架最核心的设计就是:HDFS(分布式文件系统)和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html
Hbase

Hbase:一个分布式的,面向列式的开源数据库,是一个非常适合结构化存储的数据库。Hbase是Apache的Hadoop项目的子项目。

Habse 是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统。

Hive

Hive:基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供简单的sql查询功能。可以将sql语句转化为MapReduce任务进行运行。?

其优点是:学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Pig

Pig:是一种数据流语言和运行环境用于检索非常大的数据。一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。

Pig Latin:用于描述数据流的语言。

Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。

Spark

Spark:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎

Kylin

Kylin:Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

MapReduce

MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。一个Map/Reduce作业(Job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理他们。框架会对map的输出先进行排序,然后再把结果输出给reduce任务。

通常作业的输入输出都会被存储在文件系统中。

通常 MapReduce框架和分布式文件系统是运行在一组相同的节点上的。计算节点和存储节点通常在一起,这种配置允许框架在那些已经存好数据的结点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。



python 学习:

点击打开链接

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读