1
、
hadoop
运行的原理
?
hadoop
主要由三方面组成
:
1
、
HDFS
2
、
MapReduce
3
、
Hbase
Hadoop
框架中最核心的设计就是:
MapReduce
和
HDFS
。
MapReduce
的
思想是由
Google
的一篇论文所提及而被广为流传的, 简单的一句话解释
MapReduce
就是“任务的分解与结果的汇总”。
HDFS
是
Hadoop
分布式文件
系统(
Hadoop Distributed File System
)的缩写 ,为分布式计算存储提供
了底层支持。
MapReduce
从它名字上来看就大致可以看出个缘由,两个动词
Map
和
Reduce
,“
Map
(展开)”就是将一个任务分解成为多个任 务,“
Reduce”
就是
将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思
想,其实在前面提到的多线程,多任务的设计就可以找到这 种思想的影子。不
论是现实社会,还是在程序设计中,一项工作往往可以被拆分成为多个任务,
任务之间的关系可以分为两种:一种是不相关的任务,可以并行执 行;另一种
是任务之间有相互的依赖,先后顺序不能够颠倒,这类任务是无法并行处理的。
回到大学时期,教授上课时让大家去分析关键路径,无非就是找最省时的 任务
分解执行方式。在分布式系统中,机器集群就可以看作硬件资源池,将并行的
任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,
评论