bigdata hadoop 面试问题一

发布时间：2020-12-14 02:04:07 所属栏目：大数据来源：网络整理

导读：数据结构 1.栈和队列都是线性数据结构。 2. 栈(FIlO)：只能在一端操作，即栈顶（如出栈、入栈），这种只能从一端操作的性质，意味着栈中的元素只能后进先出（先进后出）（last in first out）。（它的这种一端性，有时会用来实现double-end stack 双端栈） 3

数据结构

1.栈和队列都是线性数据结构。

2. 栈(FIlO)：只能在一端操作，即栈顶（如出栈、入栈），这种只能从一端操作的性质，意味着栈中的元素只能后进先出（先进后出）（last in first out）。（它的这种一端性，有时会用来实现double-end stack 双端栈）

3. 队列(FIFO)：是一个双端操作的数据结构，入队、和出队分别在一端操作。能够保持先进先出的性质（first in first out). 为了充分利用的队列的空间，常用来实现循环队列。

? ? ? 1、说说你们公司的hadoop项目？　
　　2、你们项目的集群有多大，有几个节点，总共的数据量是多少？　
　　3、每天大约有多少数据量？
　　4、hdfs如何保持数据的一致性？
　　5、多线程并发是如何开发的？
　　6,、nio有哪些核心的类？
　　7、你们是如何解决hive数据倾斜问题的？
　　8、mapreduce中shuffle的原理
　　还有很多Java基础的问题，比如java虚拟机，垃圾回收机制等等，有些问题一开始自己并不是很懂，都会说这个自己还没有接触到，但是那个技术我懂，然后就把知识点转移到你熟悉的领域了，这样就把握主动了。无论面试成功或失败，都要总结，把之前被问到，没有完全掌握的都熟悉。到下次面试的时候就更有把握，到后面就会越面试越顺。

一、内部表和外部表的区别：

1.在创建表的时候，导入数据到外部表，数据并没有移动到自己的数据仓库下，而在自己创建表指定的路径下，而对应于内部表数据是移动到自己的数据仓库下的。
2.在删除表的时候，hive?会将内部表的元数据和数据全部删除，而外部表仅仅只是删除元数据，数据并没有删除。

二、Hbase的行健怎样创建比较好？列族怎样创建比较好？

Hbase中行健用来检索表中的记录：通过以下三种方式：
1.	通过单个的行健访问
2.	通过行健的范围进行scan
3.	全表扫描：扫描整张表中的所有行

行健是按照字典顺序存储的，创建行健的时候应对应这个排序特点，经常读取的数据放在一起，最近可能被访问的数据放在一起。
	列族：不要在一张表中定义太多的列族，当某个列族flush的时候，临近的列族也会因关联效应而被触发flush。

三、三个datanode当中有一个datanode出错会怎样？

访问数据失败则去其他备份的机器去读取，并将这个数据块再进行复制一次到达备份标准

四、MapReduce的调度模式：

先按照作业的优先级高低，而后按照作业到达时间的先后进行处理。
	计算能力调度
		支持多个队列，每个队列采用FIFO调度策略，计算每个队列中正在运行的任务数和其分得的计算资源的比值，选择比值最小的队列，之后采用FIFO策略。
	公平调度
		同一个队列中的作业共享资源。
	异构集群调度
	实时调度

五、Hadoop的压缩算法：

1.用一些包含了压缩并且支持splittable的文件格式，比如Sequence?File，RCFile或者Avro文件，这些文件格式我们之后都会讲到。如果为了快速压缩可以使用lzo，lz4或者snappy压缩格式。
2.使用提供splittable的压缩格式，比如，bzip2和索引后可以支持splittable的lzo。
3.提前把文件分成几个块，每个块单独压缩，这样就无需考虑splittable的问题了。

六、Mapreduce怎么处理数据倾斜的问题？

数据倾斜：在执行mapreduce的时候，reduce节点大部分都已经执行完毕，但是总是存在着一个或者几个节点运行较慢，导致整个程序处理时间较长，只是因为某一条key的条数比其他的多很多，所以处理这个条数的节点时间较长，导致某几个节点迟迟运行不完。
解决：
	设置一个hash份数N，用来打散key值。
	对有重复的key，将1~N添加到key的后面，形成新的key值。
	对于key值平均分发到不同的reduce节点，如果需要和其他数据相关联，		为了保证每个reduce节点上都有相关联的key，对另一个key也进行上述处理。?
采用调度策略处理数据倾斜问题。
基于抽样分区解决数据倾斜问题（一篇硕士论文）

七、Hadoop框架中怎么来优化？

Hadoop?框架存在着一些问题：
	namenode、jobtracker单点故障，HDFS小文件，jobtracker同时负责监控和调度，负载过大，数据处理的性能。
	框架调优：
（1）	应用程序调优：书写程序优化
1.	避免不必要的reduce任务
2.	外部文件引入：对于一些外部文件，如字典，配置文件等需要在task之间共享，可以放到分布式缓存里面DistributedCache
3.	为job添加一个combiner：可以减少shuffle阶段从map?task远程拷贝到reduce?task的开销
4.	根据数据特征选择使用Writable，也可以根据自己的实际情况书写Writable
5.	重用Writable类型
6.	使用StringBuffer而不是String：SringBuffer是可修改的，String是只读的，如果需要修改，会产生临时对象，StringBuffer不会产生临时对象。
（2）	对hadoop参数调优
（3）	系统实现角度调优：根据系统实现的要求，可能会修改源码等方面。

八、shuffle阶段：

shuffle阶段：将map的输出作为reduce的输入的过程就是shuffle了，这个是mapreduce优化的重点地方。这里我不讲怎么优化shuffle阶段，讲讲shuffle阶段的原理，因为大部分的书籍里都没讲清楚shuffle阶段。Shuffle一开始就是map阶段做输出操作，一般mapreduce计算的都是海量数据，map输出时候不可能把所有文件都放到内存操作，因此map写入磁盘的过程十分的复杂，更何况map输出时候要对结果进行排序，内存开销是很大的，map在做输出时候会在内存里开启一个环形内存缓冲区，这个缓冲区专门用来输出的，默认大小是100mb，并且在配置文件里为这个缓冲区设定了一个阀值，默认是0.80（这个大小和阀值都是可以在配置文件里进行配置的），同时map还会为输出操作启动一个守护线程，如果缓冲区的内存达到了阀值的80%时候，这个守护线程就会把内容写到磁盘上，这个过程叫spill，另外的20%内存可以继续写入要写进磁盘的数据，写入磁盘和写入内存操作是互不干扰的，如果缓存区被撑满了，那么map就会阻塞写入内存的操作，让写入磁盘操作完成后再继续执行写入内存操作，前面我讲到写入磁盘前会有个排序操作，这个是在写入磁盘操作时候进行，不是在写入内存时候进行的，如果我们定义了combiner函数，那么排序前还会执行combiner操作。每次spill操作也就是写入磁盘操作时候就会写一个溢出文件，也就是说在做map输出有几次spill就会产生多少个溢出文件，等map输出全部做完后，map会合并这些输出文件。这个过程里还会有一个Partitioner操作，对于这个操作很多人都很迷糊，其实Partitioner操作和map阶段的输入分片（Input?split）很像，一个Partitioner对应一个reduce作业，如果我们mapreduce操作只有一个reduce操作，那么Partitioner就只有一个，如果我们有多个reduce操作，那么Partitioner对应的就会有多个，Partitioner因此就是reduce的输入分片，这个程序员可以编程控制，主要是根据实际key和value的值，根据实际业务类型或者为了更好的reduce负载均衡要求进行，这是提高reduce效率的一个关键所在。到了reduce阶段就是合并map输出文件了，Partitioner会找到对应的map输出文件，然后进行复制操作，复制操作时reduce会开启几个复制线程，这些线程默认个数是5个，程序员也可以在配置文件更改复制线程的个数，这个复制过程和map写入磁盘过程类似，也有阀值和内存大小，阀值一样可以在配置文件里配置，而内存大小是直接使用reduce的tasktracker的内存大小，复制时候reduce还会进行排序操作和合并文件操作，这些操作完了就会进行reduce计算了。

九、sqoop在导入mysql时，如何让数据不重复导入？

使用--参数进行不重复导入：
sqoop?import?--connect?jdbc:mysql://localhost:3306/hive??--username?root?
	--password?hadoop?--table?TBLS?--fields-terminated-by?'t'??
	--null-string?'**'??-m?1?--append??--hive-import??
	--check-column?'TBL_ID'?--incremental?append?--last-value?6(不重复导入?检查列参数?增量导入)

	sqoop简单的操作
1.把数据从mysql导入到hdfs(默认是/user/<username>)中
??sqoop?import?--connect?jdbc:mysql://localhost:3306/hive??--username?root?
	--password?hadoop?--table?TBLS?--fields-terminated-by?'t'??--null-string?'**'??
	-m?1?--append??--hive-import?

2.把数据从hdfs导出到mysql中??
??sqoop?export?--connect?jdbc:mysql://localhost:3306/hive??--username?root
	--password?hadoop?--table?id(自己先创建表)?--fields-terminated-by?'t'?
	--export-dir?'/id'?(将id文件传到hdfs上)

3.设置为作业，运行作业
??sqoop?job?--create?myjob?--?import?--connect?jdbc:mysql://localhost:3306/hive?
	--username?root?--password?hadoop?--table?TBLS?--fields-terminated-by?'t'?
	--null-string?'**'??-m?1?--append??--hive-import??

4.?查看作业，运行作业，删除作业
??sqoop?--list
??sqoop?--exec?myjob
??sqoop?--delete?myjob

5.?导入导出的事务是以Mapper任务为单位，有几个Mapper就有几个事物。

一. 问答：

1. 简单描述如何安装配置一个apache开源版hadoop，只描述即可，无需列出完整步骤，能列出步骤更好。

1) 安装JDK并配置环境变量（/etc/profile）

2) 关闭防火墙

3) 配置hosts文件，方便hadoop通过主机名访问（/etc/hosts）

4) 设置ssh免密码登录

5) 解压缩hadoop安装包，并配置环境变量

6) 修改配置文件（$HADOOP_HOME/conf）

hadoop-env.sh ?core-site.xml ?hdfs-site.xml ?mapred-site.xml

7) 格式化hdfs文件系统（hadoop namenode -format）

8) 启动hadoop （$HADOOP_HOME/bin/start-all.sh）

9) 使用jps查看进程

2. 请列出正常工作的hadoop集群中hadoop都分别需要启动那些进程，他们的作用分别是什么，尽可能写的全面些。

1) NameNode: HDFS的守护进程，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理

2) Secondary NameNode：辅助后台程序，与NameNode进行通信，以便定期保存HDFS元数据的快照。

3) DataNode：负责把HDFS数据块读写到本地的文件系统。

4) JobTracker：负责分配task，并监控所有运行的task。

5) TaskTracker：负责执行具体的task，并与JobTracker进行交互。

3. 请列出你所知道的hadoop调度器，并简要说明其工作方法。

比较流行的三种调度器有：默认调度器FIFO，计算能力调度器Capacity Scheduler，公平调度器Fair Scheduler

1) 默认调度器FIFO

hadoop中默认的调度器，采用先进先出的原则

2)?计算能力调度器Capacity Scheduler

选择占用资源小，优先级高的先执行

3)?公平调度器Fair Scheduler

同一队列中的作业公平共享队列中所有资源

4. Hive有那些方式保存元数据的，各有那些特点。

1) 内存数据库derby，较小，不常用

2) 本地mysql，较常用

3) 远程mysql，不常用

5. 请简述hadoop怎样实现二级排序。

在Hadoop中，默认情况下是按照key进行排序，如果要按照value进行排序怎么办？

有两种方法进行二次排序，分别为：buffer and in memory sort和 value-to-key conversion。

buffer and in memory sort

主要思想是：在reduce()函数中，将某个key对应的所有value保存下来，然后进行排序。这种方法最大的缺点是：可能会造成out of memory。

value-to-key conversion

主要思想是：将key和部分value拼接成一个组合key（实现WritableComparable接口或者调setSortComparatorClass函数），这样reduce获取的结果便是先按key排序，后按value排序的结果，需要注意的是，用户需要自己实现Paritioner，以便只按照key进行数据划分。Hadoop显式的支持二次排序，在Configuration类中有个setGroupingComparatorClass()方法，可用于设置排序group的key值

http://dongxicheng.org/mapreduce/hadoop-join-two-tables/

6. 简述hadoop实现Join的几种方法。

1) reduce side join

reduce side join是一种最简单的join方式，其主要思想如下：

在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag）,比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签。

在reduce阶段，reduce函数获取key相同的来自File1和File2文件的value list，然后对于同一个key，对File1和File2中的数据进行join（笛卡尔乘积）。即：reduce阶段进行实际的连接操作。

2) map side join

之所以存在reduce side join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。

Map side join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，让每个map task内存中存在一份（比如存放到hash table中），然后只扫描大表：对于大表中的每一条记录key/value，在hash table中查找是否有相同的key的记录，如果有，则连接后输出即可。

为了支持文件的复制，Hadoop提供了一个类DistributedCache，使用该类的方法如下：

（1）用户使用静态方法DistributedCache.addCacheFile()指定要复制的文件，它的参数是文件的URI（如果是HDFS上的文件，可以这样：hdfs://namenode:9000/home/XXX/file，其中9000是自己配置的NameNode端口号）。JobTracker在作业启动之前会获取这个URI列表，并将相应的文件拷贝到各个TaskTracker的本地磁盘上。（2）用户使用DistributedCache.getLocalCacheFiles()方法获取文件目录，并使用标准的文件读写API读取相应的文件。

3) SemiJoin

SemiJoin，也叫半连接，是从分布式数据库中借鉴过来的方法。它的产生动机是：对于reduce side join，跨机器的数据传输量非常大，这成了join操作的一个瓶颈，如果能够在map端过滤掉不会参加join操作的数据，则可以大大节省网络IO。

实现方法很简单：选取一个小表，假设是File1，将其参与join的key抽取出来，保存到文件File3中，File3文件一般很小，可以放到内存中。在map阶段，使用DistributedCache将File3复制到各个TaskTracker上，然后将File2中不在File3中的key对应的记录过滤掉，剩下的reduce阶段的工作与reduce side join相同。

更多关于半连接的介绍，可参考：半连接介绍：http://wenku.baidu.com/view/ae7442db7f1922791688e877.html

4) reduce side join + BloomFilter

在某些情况下，SemiJoin抽取出来的小表的key集合在内存中仍然存放不下，这时候可以使用BloomFiler以节省空间。

BloomFilter最常见的作用是：判断某个元素是否在一个集合里面。它最重要的两个方法是：add() 和contains()。最大的特点是不会存在false negative，即：如果contains()返回false，则该元素一定不在集合中，但会存在一定的true negative，即：如果contains()返回true，则该元素可能在集合中。

因而可将小表中的key保存到BloomFilter中，在map阶段过滤大表，可能有一些不在小表中的记录没有过滤掉（但是在小表中的记录一定不会过滤掉），这没关系，只不过增加了少量的网络IO而已。

更多关于BloomFilter的介绍，可参考：http://www.voidcn.com/article/p-zxftibiq-wb.html

7. 请简述MapReduce中combiner、partition的作用。

combiner：

有时一个map可能会产生大量的输出，combiner的作用是在map端对输出先做一次合并，以减少网络传输到reducer的数量。

注意：mapper的输出为combiner的输入，reducer的输入为combiner的输出。

partition：

把map任务输出的中间结果按照key的范围划分成R份(R是预先定义的reduce任务的个数)，划分时通常使用hash函数，如：hash(key) mod R

这样可以保证一段范围内的key，一定会由一个reduce任务来处理。

大数据技术/Hadoop面试题

http://www.voidcn.com/article/p-kqerhaxt-mu.html

http://www.voidcn.com/article/p-kwtegpes-mu.html

http://my.oschina.net/winHerson/blog/209420

http://blog.csdn.net/zdp072/article/details/42554431

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!