暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
面试hadoop可能被问到的问题,你能回答出几个.docx
215
5页
0次
2021-02-22
40墨值下载
1
hadoop
运行的原理
?
hadoop
主要由三方面组成
:
1
HDFS
2
MapReduce
3
Hbase
Hadoop
框架中最核心的设计就是:
MapReduce
HDFS
MapReduce
思想是由
Google
的一篇论文所提及而被广为流传的, 简单的一句话解释
MapReduce
就是“任务的分解与结果的汇总”。
HDFS
Hadoop
分布式文件
系统(
Hadoop Distributed File System
)的缩写 ,为分布式计算存储提供
了底层支持。
MapReduce
从它名字上来看就大致可以看出个缘由,两个动词
Map
Reduce
,“
Map
(展开)”就是将一个任务分解成为多个任 务,“
Reduce”
就是
将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思
想,其实在前面提到的多线程,多任务的设计就可以找到这 种思想的影子。不
论是现实社会,还是在程序设计中,一项工作往往可以被拆分成为多个任务,
任务之间的关系可以分为两种:一种是不相关的任务,可以并行执 行;另一种
是任务之间有相互的依赖,先后顺序不能够颠倒,这类任务是无法并行处理的。
回到大学时期,教授上课时让大家去分析关键路径,无非就是找最省时的 任务
分解执行方式。在分布式系统中,机器集群就可以看作硬件资源池,将并行的
任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,
同时 这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。(其
实我一直认为
Hadoop
的卡通图标不应该是一个小象,应该是蚂蚁,分布式计
算就好比 蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机,纵向扩展
的曲线始终敌不过横向扩展的斜线)。任务分解处理以后,那就需要将处理以
后的结果再汇总起 来,这就是
Reduce
要做的工作。
2
mapreduce
的原理
?
Hadoop
中的
MapReduce
是一个使用简易的软件框架,基于它写出来的应用
程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式
并 行处理上
T
级别的数据集。
一个
MapReduce
作业(
job
)通常会把输入的数据集切分为若干独立的数据
块,由
map
任务(
task
)以完全并行的方式处理它们。框架会对
map
的输出
先进行序,然后把结果输入
reduce
任务。通常作业的输入和输出会被
存储在文件系统中。个框架负责任务的调度监控,以及新执行已经失败
的任务。
通常,
MapReduce
框架和分布式文件系统是运行在一组相同的节点上的,
就是,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好
数据的节点上高效地调度任务,这可以使个集群的网络带宽被非常高效地
用。
MapReduce
框架由一个单独的
master JobTracker
和每个集群节点一个
slave TaskTracker
同组成。
master
负责调度构成一个作业的所有任务,
of 5
40墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜