大数据了解

发布时间：2020-12-14 04:51:43 所属栏目：大数据来源：网络整理

导读：Hadoop Hadoop：Apache基金会所开发的分布式系统基础架构。 Hadoop的框架最核心的设计就是： HDFS（分布式文件系统）和MapReduce 。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。 http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.

Hadoop

Hadoop：Apache基金会所开发的分布式系统基础架构。

Hadoop的框架最核心的设计就是：HDFS（分布式文件系统）和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html
Hbase

Hbase：一个分布式的，面向列式的开源数据库，是一个非常适合结构化存储的数据库。Hbase是Apache的Hadoop项目的子项目。

Habse 是一个高可靠性，高性能，面向列，可伸缩的分布式存储系统。

Hive

Hive：基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供简单的sql查询功能。可以将sql语句转化为MapReduce任务进行运行。?

其优点是：学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Pig

Pig：是一种数据流语言和运行环境，用于检索非常大的数据。一是用于描述数据流的语言，称为Pig Latin；二是用于运行Pig Latin程序的执行环境。

Pig Latin：用于描述数据流的语言。

Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。

Spark

Spark：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Kylin

Kylin：Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

MapReduce

MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于 1TB）的并行运算。一个Map/Reduce作业（Job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理他们。框架会对map的输出先进行排序，然后再把结果输出给reduce任务。

通常作业的输入输出都会被存储在文件系统中。

通常 MapReduce框架和分布式文件系统是运行在一组相同的节点上的。计算节点和存储节点通常在一起，这种配置允许框架在那些已经存好数据的结点上高效地调度任务，这可以使整个集群的网络带宽被非常高效地利用。

python 学习：

点击打开链接

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!