hdfs - 墨天轮文档

hdfs

生如夏花

400

8页

0次

2020-01-08

10墨值下载

Hadoop 分布式文件系统（HDFS）是运行在通用硬件上的分布式文件系统。HDFS 提供了一个

高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存

储系统中得到广泛应用，已经成为海量数据存储的事实标准。

随着信息系统的快速发展，海量的信息需要可靠存储的同时，还能被大量的使用者快速地访

问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展，成

为了业务发展的瓶颈和障碍。

HDFS 通过一个高效的分布式算法，将数据的访问和存储分布在大量服务器之中，在可靠地

多备份存储的同时还能将访问分布在集群中的各个服务器之上，是传统存储构架的一个颠覆

性的发展。HDFS 可以提供以下特性：

• 可自我修复的分布式文件存储系统

• 高可扩展性，无需停机动态扩容

• 高可靠性，数据自动检测和复制

• 高吞吐量访问，消除访问瓶颈

• 使用低成本存储和服务器构建

分布式文件系统 HDFS 简介

英特尔 Hadoop 发行版提供下列核心

优势：

1. 经过客户验证的企业级 Hadoop 版本，

稳定可靠

2. 图形化安装、管理、监控工具，自动进

行集群配置优化

3. 改进的 HDFS 文件 I/O 算法，提高系统

扩展性，适合不同配置服务器组成的

集群

4. 根据 HDFS 数据的热点程度动态调整

数据复制策略，提高 HDFS 系统吞吐量

5. HDFS 和 MapReduce 的高可靠性增强

6. 跨区域数据中心的 HBase 超级大表，

位置透明的数据访问和全局汇总

7. HBase大表跨数据中心远程双向复制，

适合异地灾备

8. HBase 高级 Region 负载均衡算法，适

合多应用、多用户

9. 基于 HBase 的更高性能的分布式聚合

和统计

10. HBase 的不同表或不同列族的复制份

数精细控制

白皮书

英特尔 Hadoop

大数据解决方案

高吞吐量访问

HDFS 的每个数据块分布在不同机架的一组服

务器之上，在用户访问时，HDFS 将会计算使

用网络最近的和访问量最小的

服务器给用户

提供访问。由于数据块的每个复制拷贝都能

提供给用户访问，而不是仅从数据源读取，

HDFS 对于单数据块的访问性能将是传统存

储方案的数倍。

分布式文件系统 HDFS 特性

对于一个较大的文件，HDFS 将文件的不同

部分存放于不同服务器之上。在访问大型文

件时，系统可以并行从服务器阵列中的多个

服务器并行读入，增加了大文件读入的访问

带宽。

通过以上实现，HDFS 通过分布式计算的算法，

将数据访问均摊到服务器阵列中的每个服务

器的多个数据拷贝之上，单个硬盘或服务器

的吞吐量限制都可以数倍甚至数百倍的突破，

提供了极高的数据吞吐量。

英特尔 Hadoop 发行版

无缝容量扩充

HDFS 将文件的数据块分配信息存放在 Name

Node 服务器之上，文件数据块的信息分布

地存放在 DataNode 服务器上。当整个系统

容量需要扩充时，只需要增加 DataNode 的

数量，系统会自动地实时将新的服务器匹配

进整体阵列之中。之后，文件的分布算法会

将数据块搬迁到新的 NameNode 之中，不需

任何系统当机维护或人工干预。

通过以上实现，HDFS 可以做到在不停止服务

的情况下实时地加入新的服务器作为分布式

文件系统的容量升级，不需要人工干预文件

的重分布。

分布式数据库 HBase 简介

分布式数据库 HBase 的特点和优势

HBase 是一个面向列的实时分布式数据库。HBase 不是一个关系型数据库，其设计目标是用来

解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪

七十年代为交易系统设计，以满足数据一致性（ACID）为目标，并没有考虑数据规模扩大时

的扩展性，以及系统故障时

的可用性。虽然经过多年的技术发展，产生了一些对关系性数据

库的修补（并行数据库），然而受限于理论和实现上的约束，扩展性从来没有超过 40 个服务

器节点。而 HBase 从一开始就是为 Terabyte 到 Petabyte 级别的海量数据存储和高速读写而

设计，这些数据要求能够被分布在数千台普通服务器上，并且能够被大量并发用户高速访问。

分布式文件系统 HDFS 简介 ........................... 1

分布式文件系统 HDFS 特性 ..................................1

分布式数据库 HBase 简介 .............................2

分布式数据库 HBase 的特点和优势 ................ 2

数据模型及其特点 .......................................................3

分布式计

算框架 MapReduce 简介 ...............3

MapReduce 适合处理的任务 ................................4

数据仓库 Hive 简介 .........................................4

Hive 特点............................................................................5

Hive 系统结构 .................................................................5

数据处理 Pig 简介 ........................................... 5

日志收集工具 Flume 简介.............................. 5

MapReduce 应

用场景 .................................................6

机器学习 Mahout 简介 ................................... 6

分布式协作服务 ZooKeeper 简介 ................6

关系数据 ETL 工具 Sqoop 简介 ....................7

英特尔 Hadoop 发行版产品与服务 .............. 7

为什么使用英特尔 Hadoop 发行版 .............. 7

英特尔 Hadoop 为企业应用而优化 ..............8

高度容错

HDFS 文件系统假设系统故障（服务器、网络、

存储故障等）是常态，而不是异常。因此通

过多方面保证数据的可靠性。数据在写入时

被复制多份，并且可以通过用户自定义的复

制策略分布到物理位置不同的服务器上；数

据在读写时将自动进行数据的校验，一旦发

现数据

校验错误将重新进行复制；HDFS 系统

在后台自动连续的检测数据的一致性，并维

持数据的副本数量在指定的复制水平上。

高可扩展性

HBase 是真正意义上的线性水平扩展。数据

量累计到一定程度（可配置），HBase 系统

会自动对数据进行水平切分，并分配不同的

服务器来管理这些数据。这些数据可以被扩

散到上千个普通服务器上。这样一方面可以

由大量普通服务器组成大规模集群，来存放

海量数据（从几个 TB 到几十 PB 的数据）。

另一方面，当数据峰值接近系统设计容量时，

可以简单通过增加服务器的方式来扩大容

量。这个动态扩容过程无需停机，HBase 系

统可以照常运行并提供读写服务，完全实现

动态无缝无宕机扩容。

Client

NameNode

Master

Data read

Data write

Metadata ops

cr eate ﬁle, get block locations,...

Metadatanamespace, r eplicas,...

/foo/bar,block1->node1,node3,node6

...

Data

Replication

Data

Replication

...

Slaves

DataNode

Block assignment

英特尔 Hadoop 发行版

Hadoop 分布式文件系统（HDFS）是运行在通用硬件上的分布式文件系统。HDFS 提供了一个

高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存

储系统中得到广泛应用，已经成为海量数据存储的事实标准。

随着信息系统的快速发展，海量的信息需要可靠存储的同时，还能被大量的使用者快速地访

问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展，成

为了业务发展的瓶颈和障碍。

HDFS 通过一个高效的分布式算法，将数据的访问和存储分布在大量服务器之中，在可靠地

多备份存储的同时还能将访问分布在集群中的各个服务器之上，是传统存储构架的一个颠覆

性的发展。HDFS 可以提供以下特性：

• 可自我修复的分布式文件存储系统

• 高可扩展性，无需停机动态扩容

• 高可靠性，数据自动检测和复制

• 高吞吐量访问，消除访问瓶颈

• 使用低成本存储和服务器构建

分布式文件系统 HDFS 简介

英特尔 Hadoop 发行版提供下列核心

优势：

1. 经过客户验证的企业级 Hadoop 版本，

稳定可靠

2. 图形化安装、管理、监控工具，自动进

行集群配置优化

3. 改进的 HDFS 文件 I/O 算法，提高系统

扩展性，适合不同配置服务器组成的

集群

4. 根据 HDFS 数据的热点程度动态调整

数据复制策略，提高 HDFS 系统吞吐量

5. HDFS 和 MapReduce 的高可靠性增强

6. 跨区域数据中心的 HBase 超级大表，

位置透明的数据访问和全局汇总

7. HBase大表跨数据中心远程双向复制，

适合异地灾备

8. HBase 高级 Region 负载均衡算法，适

合多应用、多用户

9. 基于 HBase 的更高性能的分布式聚合

和统计

10. HBase 的不同表或不同列族的复制份

数精细控制

白皮书

英特尔 Hadoop

大数据解决方案

高吞吐量访问

HDFS 的每个数据块分布在不同机架的一组服

务器之上，在用户访问时，HDFS 将会计算使

用网络最近的和访问量最小的

服务器给用户

提供访问。由于数据块的每个复制拷贝都能

提供给用户访问，而不是仅从数据源读取，

HDFS 对于单数据块的访问性能将是传统存

储方案的数倍。

分布式文件系统 HDFS 特性

对于一个较大的文件，HDFS 将文件的不同

部分存放于不同服务器之上。在访问大型文

件时，系统可以并行从服务器阵列中的多个

服务器并行读入，增加了大文件读入的访问

带宽。

通过以上实现，HDFS 通过分布式计算的算法，

将数据访问均摊到服务器阵列中的每个服务

器的多个数据拷贝之上，单个硬盘或服务器

的吞吐量限制都可以数倍甚至数百倍的突破，

提供了极高的数据吞吐量。

英特尔 Hadoop 发行版

无缝容量扩充

HDFS 将文件的数据块分配信息存放在 Name

Node 服务器之上，文件数据块的信息分布

地存放在 DataNode 服务器上。当整个系统

容量需要扩充时，只需要增加 DataNode 的

数量，系统会自动地实时将新的服务器匹配

进整体阵列之中。之后，文件的分布算法会

将数据块搬迁到新的 NameNode 之中，不需

任何系统当机维护或人工干预。

通过以上实现，HDFS 可以做到在不停止服务

的情况下实时地加入新的服务器作为分布式

文件系统的容量升级，不需要人工干预文件

的重分布。

分布式数据库 HBase 简介

分布式数据库 HBase 的特点和优势

HBase 是一个面向列的实时分布式数据库。HBase 不是一个关系型数据库，其设计目标是用来

解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪

七十年代为交易系统设计，以满足数据一致性（ACID）为目标，并没有考虑数据规模扩大时

的扩展性，以及系统故障时

的可用性。虽然经过多年的技术发展，产生了一些对关系性数据

库的修补（并行数据库），然而受限于理论和实现上的约束，扩展性从来没有超过 40 个服务

器节点。而 HBase 从一开始就是为 Terabyte 到 Petabyte 级别的海量数据存储和高速读写而

设计，这些数据要求能够被分布在数千台普通服务器上，并且能够被大量并发用户高速访问。

分布式文件系统 HDFS 简介 ........................... 1

分布式文件系统 HDFS 特性 ..................................1

分布式数据库 HBase 简介 .............................2

分布式数据库 HBase 的特点和优势 ................ 2

数据模型及其特点 .......................................................3

分布式计

算框架 MapReduce 简介 ...............3

MapReduce 适合处理的任务 ................................4

数据仓库 Hive 简介 .........................................4

Hive 特点............................................................................5

Hive 系统结构 .................................................................5

数据处理 Pig 简介 ........................................... 5

日志收集工具 Flume 简介.............................. 5

MapReduce 应

用场景 .................................................6

机器学习 Mahout 简介 ................................... 6

分布式协作服务 ZooKeeper 简介 ................6

关系数据 ETL 工具 Sqoop 简介 ....................7

英特尔 Hadoop 发行版产品与服务 .............. 7

为什么使用英特尔 Hadoop 发行版 .............. 7

英特尔 Hadoop 为企业应用而优化 ..............8

高度容错

HDFS 文件系统假设系统故障（服务器、网络、

存储故障等）是常态，而不是异常。因此通

过多方面保证数据的可靠性。数据在写入时

被复制多份，并且可以通过用户自定义的复

制策略分布到物理位置不同的服务器上；数

据在读写时将自动进行数据的校验，一旦发

现数据

校验错误将重新进行复制；HDFS 系统

在后台自动连续的检测数据的一致性，并维

持数据的副本数量在指定的复制水平上。

高可扩展性

HBase 是真正意义上的线性水平扩展。数据

量累计到一定程度（可配置），HBase 系统

会自动对数据进行水平切分，并分配不同的

服务器来管理这些数据。这些数据可以被扩

散到上千个普通服务器上。这样一方面可以

由大量普通服务器组成大规模集群，来存放

海量数据（从几个 TB 到几十 PB 的数据）。

另一方面，当数据峰值接近系统设计容量时，

可以简单通过增加服务器的方式来扩大容

量。这个动态扩容过程无需停机，HBase 系

统可以照常运行并提供读写服务，完全实现

动态无缝无宕机扩容。

Client

NameNode

Master

Data read

Data write

Metadata ops

cr eate ﬁle, get block locations,...

Metadatanamespace, r eplicas,...

/foo/bar,block1->node1,node3,node6

...

Data

Replication

Data

Replication

...

Slaves

DataNode

Block assignment

英特尔 Hadoop 发行版

of 8

10墨值下载

关注

评论