
无缝容量扩充
HDFS 将文件的数据块分配信息存放在 Name
Node 服务器之上,文件数据块的信息分布
地存放在 DataNode 服务器上。当整个系统
容量需要扩充时,只需要增加 DataNode 的
数量,系统会自动地实时将新的服务器匹配
进整体阵列之中。之后,文件的分布算法会
将数据块搬迁到新的 NameNode 之中,不需
任何系统当机维护或人工干预。
通过以上实现,HDFS 可以做到在不停止服务
的情况下实时地加入新的服务器作为分布式
文件系统的容量升级,不需要人工干预文件
的重分布。
分布式数据库 HBase 简介
分布式数据库 HBase 的特点和优势
HBase 是一个面向列的实时分布式数据库。HBase 不是一个关系型数据库,其设计目标是用来
解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪
七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时
的扩展性,以及系统故障时
的可用性。虽然经过多年的技术发展,产生了一些对关系性数据
库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过 40 个服务
器节点。而 HBase 从一开始就是为 Terabyte 到 Petabyte 级别的海量数据存储和高速读写而
设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。
目录
分布式文件系统 HDFS 简介 ........................... 1
分布式文件系统 HDFS 特性 ..................................1
分布式数据库 HBase 简介 .............................2
分布式数据库 HBase 的特点和优势 ................ 2
数据模型及其特点 .......................................................3
分布式计
算框架 MapReduce 简介 ...............3
MapReduce 适合处理的任务 ................................4
数据仓库 Hive 简介 .........................................4
Hive 特点............................................................................5
Hive 系统结构 .................................................................5
数据处理 Pig 简介 ........................................... 5
日志收集工具 Flume 简介.............................. 5
MapReduce 应
用场景 .................................................6
机器学习 Mahout 简介 ................................... 6
分布式协作服务 ZooKeeper 简介 ................6
关系数据 ETL 工具 Sqoop 简介 ....................7
英特尔 Hadoop 发行版产品与服务 .............. 7
为什么使用英特尔 Hadoop 发行版 .............. 7
英特尔 Hadoop 为企业应用而优化 ..............8
高度容错
HDFS 文件系统假设系统故障(服务器、网络、
存储故障等)是常态,而不是异常。因此通
过多方面保证数据的可靠性。数据在写入时
被复制多份,并且可以通过用户自定义的复
制策略分布到物理位置不同的服务器上;数
据在读写时将自动进行数据的校验,一旦发
现数据
校验错误将重新进行复制;HDFS 系统
在后台自动连续的检测数据的一致性,并维
持数据的副本数量在指定的复制水平上。
高可扩展性
HBase 是真正意义上的线性水平扩展。数据
量累计到一定程度(可配置),HBase 系统
会自动对数据进行水平切分,并分配不同的
服务器来管理这些数据。这些数据可以被扩
散到上千个普通服务器上。这样一方面可以
由大量普通服务器组成大规模集群,来存放
海量数据(从几个 TB 到几十 PB 的数据)。
另一方面,当数据峰值接近系统设计容量时,
可以简单通过增加服务器的方式来扩大容
量。这个动态扩容过程无需停机,HBase 系
统可以照常运行并提供读写服务,完全实现
动态无缝无宕机扩容。
2
Client
NameNode
Master
Data read
Data write
Metadata ops
cr eate file, get block locations,...
Metadatanamespace, r eplicas,...
/foo/bar,block1->node1,node3,node6
...
Data
Replication
Data
Replication
...
Slaves
1
DataNode
5
2
DataNode
5
3
1
DataNode
5
3
Block assignment
英特尔 Hadoop 发行版
评论