暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
hdfs
345
8页
0次
2020-01-08
10墨值下载
Hadoop 分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS 供了一个
高度高吞量数决方案。HDFS 大型线和大
储系统中得到广泛应用,已经成为海量数据存储的事实标准。
随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访
问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成
为了业务发展的瓶颈和障碍。
HDFS 过一分布法,数据访存储量服中,在可
多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆
性的发展。HDFS 可以提供以下特性:
可自我修复的分布式文件存储系统
高可扩展性,无需停机动态扩容
高可靠性,数据自动检测和复制
高吞吐量访问,消除访问瓶颈
使用低成本存储和服务器构建
布式文件系统 HDFS 简介
英特 Hadoop 发行版提供下列核
优势
1. 经过客户证的 Hadoop 版本
稳定可靠
2. 理、具,
行集配置优化
3. HDFS I/O 法,
集群
4. HDFS
据复制提高 HDFS 系统吞
5. HDFS MapReduce 的高可靠性增强
6. HBase 表,
透明的数访问和局汇
7. HBase大表跨中心远向复制,
适合异地灾备
8. HBase Region 法,
合多应用、多用户
9. HBase
和统计
10. HBase
数精控制
白皮书
特尔 Hadoop
大数
高吞吐量访问
HDFS 的每个数据块分布在不同机架的一组服
务器之上,在用户访问时,HDFS 将会计算使
用网近的访问量
服务用户
提供访问。数据个复都能
访问,据源读取,
HDFS 访
储方案的数倍
式文件系统 HDFS
件,HDFS
部分不同之上。访大型
件时,以并务器的多
服务读入,大文的访
带宽。
上实HDFS 布式
将数访问均服务列中服务
器的拷贝上,单个务器
的吞吐量限制都可以数倍甚至数百倍的突破,
提供了极高的数据吞吐量。
特尔 Hadoop 发行
无缝容量扩充
HDFS 将文件的数据块分配信息存放在 Name
Node 上,
DataNode 上。
时, DataNode
数量,自动将新器匹
进整中。之后,法会
将数块搬到新 NameNode 中,
系统当机护或人工干预。
通过以上实现,HDFS 可以做到在不停止服务
的情下实加入服务为分
文件容量级,要人文件
的重分布。
布式数据库 HBase 简介
式数据 HBase 的特点和优势
HBase 是一个面向列的实时分布式数据库。HBase 是一个关系型数据库,其设计目标是用来
解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世
七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时
的扩展性,及系统故障时
的可用性。然经过多年的技术发展,产生了一些对关系性数据
库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过 40 个服务
点。 HBase Terabyte Petabyte 别的海量数据存储和高速读写而
计,些数据要能够分布在数台普通服务器上,并且能够被大量并发用户高速访问。
目录
分布式文件系统 HDFS 简介 ........................... 1
式文件系 HDFS ..................................1
分布式据库 HBase 简介 .............................2
式数据库 HBase 的特点和 ................ 2
数据特点 .......................................................3
分布式计
算框 MapReduce 简介 ...............3
MapReduce 适合理的 ................................4
据仓库 Hive 简介 .........................................4
Hive 特点............................................................................5
Hive 结构 .................................................................5
据处 Pig 简介 ........................................... 5
日志收集工具 Flume 简介.............................. 5
MapReduce
用场 .................................................6
机器 Mahout 简介 ................................... 6
分布式协作服务 ZooKeeper 简介 ................6
关系 ETL 工具 Sqoop 简介 ....................7
英特 Hadoop 发行版产品与服务 .............. 7
为什么使用英特 Hadoop 发行版 .............. 7
英特 Hadoop 为企业用而优化 ..............8
高度容
HDFS 统假务器
存储等)态,异常因此
过多证数靠性。数入时
被复份,且可用户的复
制策到物不同器上;数
据在将自数据验,旦发
现数据
校验错误将重新进行复制;HDFS
在后台自动连续的检测数性,
持数据的副本数量在指定的复制水平上。
高可扩展性
HBase 线展。
度(置),HBase
会自据进切分,不同
服务理这据。这些以被
散到普通上。这面可
由大服务大规群,来存
海量数据(从几个 TB 到几十 PB 的数据)。
另一方面,当数据峰值接近系统设计容量时,
量。机,HBase
统可运行读写务,全实
动态无缝无宕机扩容。
2
Client
NameNode
Master
Data read
Data write
Metadata ops
cr eate file, get block locations,...
Metadatanamespace, r eplicas,...
/foo/bar,block1->node1,node3,node6
...
Data
Replication
Data
Replication
...
Slaves
1
DataNode
5
2
DataNode
5
3
1
DataNode
5
3
Block assignment
特尔 Hadoop 行版
of 8
10墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜