面试hadoop可能被问到的问题，你能回答出几个.docx - 墨天轮文档

面试hadoop可能被问到的问题，你能回答出几个.docx

244

5页

0次

2021-02-22

40墨值下载

1

、

hadoop

运行的原理

?

hadoop

主要由三方面组成

:

1

、

HDFS

2

、

MapReduce

3

、

Hbase

Hadoop

框架中最核心的设计就是：

MapReduce

和

HDFS

。

MapReduce

的

思想是由

Google

的一篇论文所提及而被广为流传的，简单的一句话解释

MapReduce

就是“任务的分解与结果的汇总”。

HDFS

是

Hadoop

分布式文件

系统（

Hadoop Distributed File System

）的缩写，为分布式计算存储提供

了底层支持。

MapReduce

从它名字上来看就大致可以看出个缘由，两个动词

Map

和

Reduce

，“

Map

（展开）”就是将一个任务分解成为多个任务，“

Reduce”

就是

将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思

想，其实在前面提到的多线程，多任务的设计就可以找到这种思想的影子。不

论是现实社会，还是在程序设计中，一项工作往往可以被拆分成为多个任务，

任务之间的关系可以分为两种：一种是不相关的任务，可以并行执行；另一种

是任务之间有相互的依赖，先后顺序不能够颠倒，这类任务是无法并行处理的。

回到大学时期，教授上课时让大家去分析关键路径，无非就是找最省时的任务

分解执行方式。在分布式系统中，机器集群就可以看作硬件资源池，将并行的

任务拆分，然后交由每一个空闲机器资源去处理，能够极大地提高计算效率，

同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。（其

实我一直认为

Hadoop

的卡通图标不应该是一个小象，应该是蚂蚁，分布式计

算就好比蚂蚁吃大象，廉价的机器群可以匹敌任何高性能的计算机，纵向扩展

的曲线始终敌不过横向扩展的斜线）。任务分解处理以后，那就需要将处理以

后的结果再汇总起来，这就是

Reduce

要做的工作。

2

、

mapreduce

的原理

?

Hadoop

中的

MapReduce

是一个使用简易的软件框架，基于它写出来的应用

程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的式

并行处理上

T

级别的数据集。

一个

MapReduce

作业（

job

）通常会把输入的数据集切分为若干独立的数据

块，由

map

任务（

task

）以完全并行的方式处理它们。框架会对

map

的输出

先进行排序，然后把结果输入给

reduce

任务。通常作业的输入和输出都会被

存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败

的任务。

通常，

MapReduce

框架和分布式文件系统是运行在一组相同的节点上的，也

就是说，计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好

数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效地利

用。

MapReduce

框架由一个单独的

master JobTracker

和每个集群节点一个

slave TaskTracker

共同组成。

master

负责调度构成一个作业的所有任务，

of 5

40墨值下载

【版权声明】本文为墨天轮用户原创内容，转载时必须标注文档的来源（墨天轮），文档链接，文档作者等基本信息，否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容，欢迎发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

评论

关注

最新上传

暂无内容，敬请期待...

下载排行榜

Top250 周榜月榜